别再手动爬网页了:我用 OpenClaw + Playwright 搞定了 AI 内容提取

熊猫办公

大家好,我是小智,专注 AI 工具,AI 智能体和编程提效

痛点最近我在折腾 AI Agent 自动化的时候,碰到一个特别烦人的问题——让 AI 去抓个网页内容,怎么就这么麻烦?用 curl 吧,现在大部分页面都是 JS 渲染的,直接给你返回一坨空壳 HTML,啥内容都没有。想用传统的爬虫框架,光配置环境就够喝一壶的。更别提现在的网页动不动就是 React 或者 Vue 写出来的单页应用,静态抓取基本白搭。直到我发现了 OpenClaw + Playwright 这套组合,才算真正把“让 AI 读懂网页”这事跑通了。

别再手动爬网页了:我用 OpenClaw + Playwright 搞定了 AI 内容提取
openclaw-web-search

OpenClaw 是什么?凭什么它能干这事OpenClaw 是一个开源的 AI Agent 框架,它干的事说白了就一件:让 LLM 能真正操作浏览器。它底层用Playwright驱动真实浏览器,但最聪明的地方在于它不是让 AI 去“看”截图(那太费 token 了),而是通过Accessibility Snapshot把页面结构翻译成 AI 能直接理解的格式。就像给 AI 配了一副特殊的眼镜,能直接看到页面的骨架。

别再手动爬网页了:我用 OpenClaw + Playwright 搞定了 AI 内容提取
openclaw-browser-overview

这里主要有两种控制模式可以选。如果你已经登录了某个网站,需要在登录态下操作,就用Chrome 扩展模式。如果是纯自动化场景,不需要界面,后台默默干活,那就选Headless 模式。对于大部分内容提取的场景,Headless 模式就够用了。

别再手动爬网页了:我用 OpenClaw + Playwright 搞定了 AI 内容提取
openclaw-5-features

4 种方案,选最适合你的那个我调研了一圈,目前主流的方案有四种,各有各的定位。

别再手动爬网页了:我用 OpenClaw + Playwright 搞定了 AI 内容提取
playwright-mcp-servers

方案一:openclaw-web-scraperGitHub 上有个叫LiranUdi/openclaw-web-scraper的项目,最大的特点是零配置开箱即用。它基于 Playwright + Chromium,不需要任何 API Key。浏览器会话是长驻的,意味着你可以多步操作——先打开页面,再点击展开,再提取内容,整个过程是有状态的。输出直接就是 Markdown,拿来就能用。方案二:Fetcher MCP这是我觉得最实用的一个。jae-jae/fetcher-mcp这个项目内置了 Readability 算法——就是 Firefox 阅读模式背后那套技术。你只要扔给它一个 URL,它自动帮你把正文提出来,广告、导航栏、侧边栏全干掉。它的杀手级功能是支持批量并发抓取,fetch_urls一次扔十几个链接进去,效率拉满。输出支持 HTML 和 Markdown 两种格式。方案三:Microsoft Playwright MCP微软官方出品,规格确实高。它提供了 25 个以上的工具,从导航、点击、填表到截图、PDF 生成,基本上你能想到的浏览器操作它都覆盖了。但说实话,对于纯内容提取的场景,它有点重了。25 个工具摆在 AI 面前,容易出现“选择困难症”——Bug0 的评测管这叫 Tool Proliferation Problem(工具泛滥问题)。AI 光琢磨该用哪个工具,token 就烧掉一大把。它更适合需要复杂交互的自动化场景,比如登录、填表、多步骤流程。方案四:Playwright Scraper MCPdennisgl/mcp-playwright-scraper这个项目,哲学跟微软那个完全相反——只提供一个工具scrape_to_markdown。URL 进去,Markdown 出来,完事。简单粗暴,但真的好用。不需要 AI 做任何决策,直接调就行。怎么选?如果你就想提取正文,越简单越好,我推荐Playwright Scraper MCP。如果要提取正文还要批量抓,那就选Fetcher MCP。如果需要登录、点击、填表等交互,Microsoft Playwright MCP是不二之选。如果你想在 OpenClaw 生态里用,那就用openclaw-web-scraper。实操:10 分钟跑通内容提取拿 Fetcher MCP 举例,它是实用性和易用性的最佳平衡点。第一步:安装npm install -g @anthropic/fetcher-mcp

第二步:配置 MCP Server在你的 MCP 配置文件里加上:{
"mcpServers":{
"fetcher":{
"command":"fetcher-mcp",
"args":[]
}
}
}

第三步:调用配置好之后,直接让 AI 用就行:帮我提取这个页面的主要内容:https://www.example.com/article

AI 会自动调用 Fetcher MCP,Playwright 在后台启动 Headless 浏览器,等页面 JS 渲染完毕,Readability 算法提取正文,返回干净的 Markdown。如果你更喜欢 openclaw-web-scraper,流程也差不多。安装后用--headless模式启动,通过 Unix Socket 保持浏览器会话,支持多步交互。几个坑,提前知道能省不少时间

别再手动爬网页了:我用 OpenClaw + Playwright 搞定了 AI 内容提取
openclaw-config-modes

Shadow DOM 是 2026 年最头疼的问题。现在越来越多组件库(Shoelace、Lit、各种企业内部组件)把元素藏在 Shadow Root 里,Accessibility Snapshot 看不到这些内容。碰到这种情况,可能得降级到直接执行 JS 去提取。登录墙后面的内容要用 Chrome 扩展模式。Headless 模式每次都是全新会话,碰到需要登录的网站就歇菜了。用 OpenClaw 的 Chrome 扩展模式可以复用你浏览器里的登录态。工具太多反而是负担。如果你只需要提取内容,别上 Microsoft Playwright MCP 的全套 25 个工具。工具越少,AI 的决策越快,token 消耗越低。这事 Bug0 的评测说得很清楚:一个灵活的工具比一堆精确的工具管用。不想本地装 Playwright?试试 Apify 的云端方案,浏览器跑在他们的服务器上,你本地零依赖。如果你现在想动手操作,最快的路径是:装好 Fetcher MCP,配到你的 AI 工具里,然后扔个 URL 进去看看效果。整个过程不超过 10 分钟。往期推荐阅读


如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️关注小智AI指南公众号,AI 路上不迷路

© 版权声明

相关文章