文档
推荐给好友,福利领不停!好友同步开通最高 1000 万词元额度 · 后续消费分佣最高 30%。
+50万 Token生成链接

浏览器自动化实战

用四层操控模型完成网页数据抓取、表单填写与 AI 智能浏览

本教程将带你体验 Crab Claw 浏览器自动化的四层操控模型——从基础导航到 AI 智能浏览,完成网页数据抓取、表单填写、GIF 录制等实战任务。

前置条件

  • Crab Claw 已安装并运行
  • 系统安装了 Chrome、Brave 或 Edge 浏览器
  • 配置了模型提供商(AI 浏览需要视觉能力模型)

场景一:数据抓取(ARIA Ref 模式)

目标

从 Hacker News 首页抓取前 10 条新闻标题和链接。

操作步骤

在聊天中依次执行:

shell
> 打开 https://news.ycombinator.com
> 打开 https://news.ycombinator.com

智能体自动调用 navigate,打开页面并返回截图。

shell
> 获取页面上所有可交互元素
> 获取页面上所有可交互元素

智能体调用 observe,返回 ARIA 树 + ref 标注:

shell
[e1] link "Hacker News"
[e2] link "new"
[e3] link "past"
...
[e10] link "Show HN: My new project" → href="/item?id=12345"
[e11] link "Ask HN: Best practices for..." → href="/item?id=12346"
...
[e1] link "Hacker News"
[e2] link "new"
[e3] link "past"
...
[e10] link "Show HN: My new project" → href="/item?id=12345"
[e11] link "Ask HN: Best practices for..." → href="/item?id=12346"
...
shell
> 帮我提取前 10 条新闻的标题和链接,输出为 JSON 格式
> 帮我提取前 10 条新闻的标题和链接,输出为 JSON 格式

智能体调用 get_content 获取页面文本,然后 LLM 解析输出:

json
[
  { "title": "Show HN: My new project", "url": "https://news.ycombinator.com/item?id=12345" },
  { "title": "Ask HN: Best practices for...", "url": "..." },
  ...
]
[
  { "title": "Show HN: My new project", "url": "https://news.ycombinator.com/item?id=12345" },
  { "title": "Ask HN: Best practices for...", "url": "..." },
  ...
]

场景二:表单填写(ARIA Ref + Fill)

目标

自动填写一个注册表单。

shell
> 打开 https://example.com/register
> 获取页面上的所有表单元素
> 打开 https://example.com/register
> 获取页面上的所有表单元素

智能体返回表单元素的 ref:

shell
[e5] textbox "用户名"
[e6] textbox "邮箱"
[e7] textbox "密码"
[e8] button "注册"
[e5] textbox "用户名"
[e6] textbox "邮箱"
[e7] textbox "密码"
[e8] button "注册"
shell
> 在用户名框填写 test_user,邮箱填写 test@example.com,密码填写 SecurePass123
> 在用户名框填写 test_user,邮箱填写 test@example.com,密码填写 SecurePass123

智能体依次调用 fill_ref

shell
fill_ref e5 "test_user" 截图确认
fill_ref e6 "test@example.com" 截图确认
fill_ref e7 "SecurePass123" 截图确认
fill_ref e5 "test_user" 截图确认
fill_ref e6 "test@example.com" 截图确认
fill_ref e7 "SecurePass123" 截图确认
shell
> 点击注册按钮
> 点击注册按钮
shell
click_ref e8 截图显示注册成功页面
click_ref e8 截图显示注册成功页面

场景三:SOM 视觉定位(复杂页面)

当页面结构复杂、ARIA 标注不准确时,使用 SOM 视觉标注:

shell
> 对当前页面进行 SOM 标注
> 对当前页面进行 SOM 标注

智能体调用 annotate_som,返回一张标注了数字编号的截图:

  • 每个可交互元素都有红色数字标注
  • LLM 通过视觉识别选择目标
shell
> 点击编号 7 的按钮
> 点击编号 7 的按钮
shell
click_ref 7 操作成功
click_ref 7 操作成功

适用场景:iframe 嵌套、Shadow DOM、动态渲染、Canvas 内元素。

场景四:AI 智能浏览(意图级)

最高级的操控方式——用自然语言描述目标,智能体自主导航完成:

shell
> 帮我在 GitHub 上搜索 "crabclaw" 项目,找到 Star 数最多的仓库,然后截图给我看
> 帮我在 GitHub 上搜索 "crabclaw" 项目,找到 Star 数最多的仓库,然后截图给我看

智能体自动执行(最多 20 步循环):

shell
Step 1: navigate github.com
Step 2: observe 找到搜索框 [e3]
Step 3: fill_ref e3 "crabclaw" 输入搜索词
Step 4: click_ref e4 点击搜索
Step 5: observe 分析搜索结果列表
Step 6: click_ref e12 点击 Star 数最多的项目
Step 7: screenshot 截图返回
Step 1: navigate github.com
Step 2: observe 找到搜索框 [e3]
Step 3: fill_ref e3 "crabclaw" 输入搜索词
Step 4: click_ref e4 点击搜索
Step 5: observe 分析搜索结果列表
Step 6: click_ref e12 点击 Star 数最多的项目
Step 7: screenshot 截图返回

整个过程无需你指定任何选择器或 ref,完全由 AI 自主决策。

场景五:GIF 操作录制

录制操作过程为 GIF 动画:

shell
> 开始录制浏览器操作
> 打开 https://example.com
> 点击登录按钮
> 填写用户名和密码
> 点击提交
> 停止录制
> 开始录制浏览器操作
> 打开 https://example.com
> 点击登录按钮
> 填写用户名和密码
> 点击提交
> 停止录制

输出:

shell
 已保存 GIF: login_flow.gif (38 帧, 980KB)
 已保存 GIF: login_flow.gif (38 帧, 980KB)

用途:操作演示、Bug 复现、自动化流程文档化。

场景六:多标签页操作

shell
> 创建新标签页打开 https://docs.example.com
> 列出所有标签页
> 切换回第一个标签页
> 关闭文档标签页
> 创建新标签页打开 https://docs.example.com
> 列出所有标签页
> 切换回第一个标签页
> 关闭文档标签页

四层操控模型对比

层级适用场景精度速度推荐指数
CSS Selector结构固定的简单页面最快⭐⭐
ARIA Ref大多数常规页面⭐⭐⭐⭐⭐
SOM 视觉标注复杂动态页面⭐⭐⭐
AI 智能浏览多步复杂任务⭐⭐⭐⭐

推荐策略:日常操作用 ARIA Ref(observe → click_ref/fill_ref),复杂多步任务用 AI 智能浏览(ai_browse)。

常见问题

浏览器没有自动启动?

  • Crab Claw 使用懒加载模式,首次调用浏览器工具时才启动
  • 确认 Chrome/Brave/Edge 已安装

CDP 连接断开?

  • 系统会自动重连,下次调用时重新发现/启动
  • 如持续失败: crabclaw browser status 检查状态

操作太慢?

  • 简单操作用 ARIA Ref(直接操控 DOM),不要用 AI 浏览
  • ai_browse 每步都需要截图分析,适合复杂多步任务

相关文档:浏览器自动化 · 视觉理解智能体 · 媒体智能体