快速开始#
核心工作流#
所有浏览器自动化都遵循这个模式:
bash
# 1. 导航
agent-browser open example.com
# 2. 生成快照以获取元素 ref
agent-browser snapshot -i
# Output:
# @e1 [heading] "Example Domain"
# @e2 [link] "More information..."
# 3. 使用 ref 进行交互
agent-browser click @e2
# 4. 页面变化后重新生成快照
agent-browser snapshot -i常用命令#
bash
agent-browser open example.com
agent-browser snapshot -i # 获取带有 ref 的可交互元素
agent-browser click @e2 # 按 ref 点击
agent-browser fill @e3 "test@example.com" # 按 ref 填充输入框
agent-browser get text @e1 # 获取文本内容
agent-browser screenshot # 保存到临时目录
agent-browser screenshot page.png # 保存到指定路径
agent-browser close传统选择器#
也支持 CSS 选择器和语义定位器:
bash
agent-browser click "#submit"
agent-browser fill "#email" "test@example.com"
agent-browser find role button click --name "Submit"有头模式#
显示浏览器窗口以便调试:
bash
agent-browser open example.com --headed等待内容#
bash
agent-browser wait @e1 # 等待元素
agent-browser wait --load networkidle # 等待网络空闲
agent-browser wait --url "**/dashboard" # 等待 URL 模式
agent-browser wait 2000 # 等待毫秒数命令串联#
在同一个 shell 调用中用 && 串联命令。浏览器会通过后台守护进程保持会话,因此串联是安全且高效的:
bash
# 一次调用完成打开、等待和快照
agent-browser open example.com && agent-browser wait --load networkidle && agent-browser snapshot -i
# 串联多个交互
agent-browser fill @e1 "user@example.com" && agent-browser fill @e2 "pass" && agent-browser click @e3
# 导航并捕获
agent-browser open example.com && agent-browser wait --load networkidle && agent-browser screenshot page.png当你不需要中间输出时使用 &&。如果需要先解析输出再继续操作,就分开运行命令(例如先 snapshot 获取 ref,再交互)。
JSON 输出#
适合在脚本中进行程序化解析:
bash
agent-browser snapshot --json
agent-browser get text @e1 --json注意:默认文本输出更紧凑,更适合 AI 代理。