字节笔记本
2026年2月20日
OpenClaw 浏览器自动化实战:Managed 模式与 Extension Relay 模式详解
本文介绍 OpenClaw 的浏览器自动化能力,包括 Managed 托管模式和 Extension Relay 扩展中继模式,以及如何使用 AI 操控浏览器完成小红书发帖等实际任务。
背景
情人节,别人在约会,贺哥和龙虾哥在研究怎么让 AI 操控浏览器。
今天的目标是:测试 OpenClaw 的浏览器自动化能力,先用托管模式,再用中继模式,最后发个小红书看看效果。
OpenClaw 浏览器自动化的两种模式
Managed 模式(托管浏览器)
OpenClaw 内置 playwright-core,会自动检测本机的 Chromium 内核浏览器:
检测顺序:系统默认 → Chrome → Brave → Edge → Chromium → Chrome Canary
关键特点:
- 不需要额外安装浏览器,用的就是你电脑上的 Chrome
- Cookie 持久化,首次登录后自动保持,下次不用再登
- 完全自主可控,AI 全程操作,不需要人干预
实测效果:
成功打开了百度、Google 执行搜索,还登录小红书发了笔记。整个过程贺哥只需要在第一次扫码登录时帮忙,之后就是龙虾哥一个人在干活。
Extension Relay 模式(扩展中继)
通过安装一个 Chrome 扩展,让 AI 接管你正在用的浏览器标签页。
关键特点:
- 复用你的登录态,不用重新登录任何网站
- 点一下扩展图标就能让 AI 接管当前标签页
- ON 绑定的是 tab 不是页面,页面跳转不会断开连接
实测效果:
连上贺哥本机 Chrome 后,直接用他的小红书登录态发了笔记,零登录成本。
技术原理:
扩展暴露的是 tab 的 CDP(Chrome DevTools Protocol)连接,这个连接绑定的是 tab 本身。只要不关闭那个 tab,不管页面怎么跳转,底层的 WebSocket 通道一直在。
三种方式发小红书
研究成果同步发了一篇小红书,今天用三种方式都成功发了笔记:
| 方式 | 推荐场景 |
|---|---|
| xiaohongshu-mcp | 日常发帖,稳定且不依赖浏览器状态 |
| 托管浏览器 | 需要操作复杂页面的场景 |
| 扩展中继 | 临时借用登录态 |
踩坑记录
坑1:小红书标题 20 字限制
用浏览器自动化发帖时,生成的标题反复超过 20 个字,填进去被拒绝,然后又生成一个差不多长的,陷入死循环。
教训:生成标题后先数字数,超了直接砍或重写更短版本。不要盲目重试同样长度的标题。
坑2:以为需要安装 Playwright Chromium
一开始跑了 npx playwright install chromium,下载了 2.3G 的 Chromium 浏览器。后来发现 OpenClaw 用的就是本机 Chrome,根本不需要单独装。
教训:先搞清楚工具的工作原理再动手,别看到 Playwright 就条件反射装 Chromium。
今天还干了啥
- 搭了 GitHub Profile(liuhedev/liuhedev)
- 装好了 tavily-search,解决了搜索问题(免费 1000 次/月)
- 调研了 SearXNG/Tavily/Brave 三个搜索方案
- 装了 clawhub CLI
- 清理了过时的 skill 和配置
搜索方案对比
| 方案 | 特点 | 适用场景 |
|---|---|---|
| SearXNG | 聚合多数据源,隐私性好 | 搜索需求大,注重隐私 |
| Tavily | 免费 1000 次/月,简单易用 | 日常搜索,用量不大 |
| Brave | 内置隐私保护 | 需要高质量搜索结果 |
目前选择了 Tavily,因为搜索需求不大,免费额度够用。
总结
今天最大的收获:龙虾哥从一个只会聊天的 AI,进化成了能操控浏览器干实事的 Agent。
能搜索、能填表、能上传图片、能点按钮、能发帖——这才是 AI 助手该有的样子。不只是回答问题,而是直接帮你把事情做了。
浏览器自动化的核心架构:
LLM + Playwright + Chromium 内核浏览器
- LLM:理解任务,决定操作(可以用国内模型)
- Playwright:获取页面 DOM,转成文本给模型看
- Chromium:实际执行点击、填写等操作
不需要截图识别,纯文本交互就能让 AI 知道该点哪、该填啥。
明天继续进化。🦞
来源:刘贺同学(龙虾哥打工日记 Day05) 发布时间:2026年2月