什么是 Agent Browser?
Agent Browser 是一款创新的库,旨在以极高的令牌效率使 AI 代理能够与真实浏览器进行交互。它弥合了人工智能与动态互联网世界之间的鸿沟,使 AI 模型能够导航网站、点击元素、输入文本、滚动,甚至捕获屏幕截图。此功能对于需要实时 Web 交互的复杂任务的 AI 代理至关重要,例如数据抓取、自动化测试、内容摘要或执行多步在线流程。
Agent Browser 的主要目标是在令牌使用方面尽可能高效地实现这些浏览器交互,这是大型语言模型 (LLM) 的关键因素。通过为代理提供一种结构化且优化的方式来感知和操作 Web 内容,它极大地增强了 AI 在基于 Web 的场景中的实际应用。无论您是将 AI 集成到现有工作流中,还是开发新的 AI 驱动的应用程序,Agent Browser 都为实现复杂的浏览器控制提供了强大的解决方案。
主要功能
- 令牌高效交互:针对 LLM 进行了优化,在浏览器操作期间最大限度地减少令牌消耗。
- 真实浏览器控制:使 AI 代理能够控制实时浏览器实例,模仿人类交互。
- 全面的交互能力:支持导航到 URL、点击元素、键入文本、滚动和截屏等操作。
- ASCII 线框表示:提供网页的文本表示,使 AI 代理能够理解页面结构和元素。
- 多种集成选项:可与 MCP 客户端(如 Cursor、Claude Desktop)、Vercel AI SDK 一起使用,或直接通过命令行界面 (CLI) 使用。
- 实验性开发:专注于推动 AI-浏览器集成边界的积极开发。
如何使用 Agent Browser
开始使用 Agent Browser 非常简单,并根据您偏好的工作流程提供灵活性:
-
安装:使用 npm 安装包:
npm install @agent-browser-io/browser -
MCP 集成(适用于 Cursor/Claude Desktop 等 AI 助手):
- 运行 MCP 服务器:
npx @agent-browser-io/browser mcp - 配置您的 MCP 客户端(例如,Cursor 设置或
mcp.json文件)以连接到此服务器。文档中提供了 Cursor 的示例配置。 - 配置完成后,这些客户端中的 AI 代理可以利用 Agent Browser 工具来控制浏览器。
- 运行 MCP 服务器:
-
Vercel AI SDK 集成:
- 将
createBrowserTools(browser)函数与 Vercel AI SDK 的generateText函数一起使用。这允许您定义 AI 模型可以调用的与浏览器相关的工具。
- 将
-
CLI 使用:
- 对于手动测试或直接交互,您可以使用交互式 CLI:
npx @agent-browser-io/browser - 安装后,您还可以使用
agent-browser-cli。
- 对于手动测试或直接交互,您可以使用交互式 CLI:
用例
Agent Browser 为 AI 代理解锁了广泛的强大应用程序:
- 自动化网页抓取和数据提取:AI 代理可以导航复杂的网站、登录、填写表单并以高精度提取特定数据点,克服动态内容带来的挑战。
- 智能 Web 测试:通过让 AI 代理与 UI 交互、识别错误并以类似人类的方式报告问题来自动化 Web 应用程序的测试。
- 个性化内容策展:AI 代理可以浏览新闻网站、社交媒体或电子商务平台,以收集符合用户偏好的信息,提供个性化的摘要或推荐。
- 高级研究和分析:代理可以通过访问多个来源、综合信息和生成特定主题的报告来进行深入研究。
- 电子商务助手:AI 驱动的购物助手可以浏览产品、比较价格、阅读评论,甚至可以代表用户完成购买。
FAQ
Q1:是什么让 Agent Browser 具有“令牌效率”?
A1:Agent Browser 的设计宗旨是最大限度地减少发送到 LLM 的数据量。它通常提供页面的结构化 ASCII 线框表示以及特定的元素信息,而不是发送原始 HTML 或大型屏幕截图。这大大减少了 AI 理解和交互页面所需的令牌数量。
Q2:哪些 AI 模型或平台与 Agent Browser 兼容?
A2:Agent Browser 旨在与任何能够处理基于文本的输入并利用工具的 AI 模型兼容。它与 Cursor 和 Claude Desktop 等 MCP 客户端有直接集成,并且可以与 Vercel AI SDK 无缝协作,该 SDK 支持各种 LLM。核心功能也可以适配到其他 AI 框架。
Q3:Agent Browser 是否适用于复杂的、重 JavaScript 的网站?
A3:是的,因为 Agent Browser 控制的是真实浏览器实例,所以它可以像人类用户一样执行 JavaScript 并与动态内容进行交互。这使其能够处理现代、复杂的 Web 应用程序。
Q4:Agent Browser 提供哪些支持?
A4:Agent Browser 是托管在 GitHub 上的开源项目。支持主要通过 GitHub 问题和讨论进行社区驱动。由于它是实验性的,我们鼓励用户贡献并报告任何错误或功能请求。
Q5:Agent Browser 能否用于需要登录网站的任务?
A5:当然可以。Agent Browser 可以通过在表单字段中键入凭据并单击登录按钮来模拟登录网站的过程,从而使 AI 代理能够代表用户访问受保护的内容或执行操作。
替代品
Codex Plugins
使用 Codex Plugins 将技能、应用集成和 MCP 服务器打包成可复用工作流,扩展 Codex 访问 Gmail、Google Drive 与 Slack 等工具。
AakarDev AI
AakarDev AI 是一个强大的平台,通过无缝的向量数据库集成简化 AI 应用程序的开发,实现快速部署和可扩展性。
AgentMail
AgentMail 是面向 AI 代理的邮箱收发 API,可通过 REST 创建、发送、接收与搜索邮件,实现双向对话。
Arduino VENTUNO Q
Arduino VENTUNO Q 边缘AI电脑,集成AI推理与微控制器确定性控制;用 Arduino App Lab 打通嵌入式、Linux与边缘AI开发。
BotBoard
用 BotBoard 像团队管理 AI 代理:共享待办、结构化上下文与人工审核流程,分配、跟踪并批准输出结果。
Devin
Devin 是 AI 编程代理,帮助软件团队并行完成代码迁移与大规模重构子任务;工程师负责项目管理并批准改动。