Rover 是什么?
Rover 是一个可嵌入网站的“网页代理”,只需一个脚本标签即可添加到你的网站。与仅用文本回答不同,它能在实时页面中执行操作——点击按钮、填写表单、运行工作流,并为用户引导导航。
Rover 直接在浏览器中运行,通过读取网站的实时 DOM,规划最小动作集并执行,无需依赖截图或独立知识库工作流。
主要特性
- 一行代码嵌入(脚本标签):通过在网站中引入
https://rover.rtrvr.ai/embed.js添加 Rover,便于在你自己的 UI 中快速开始测试。 - DOM 原生交互:Rover 以浏览器方式读取并理解实时页面结构,从而识别当前屏幕上的内容。
- 安全最小步骤的动作规划:它在执行前选择最短安全路径(例如点击、表单输入、导航),而非临时交互。
- 第一方上下文执行:Rover 在你现有界面内引导用户——用户无需跟随外部链接完成任务。
- 引导式流程用于入门和设置:它可运行“引导游览”和上下文协助(例如入门、功能发现和设置清单),通过与 UI 交互实现。
如何使用 Rover
- 在网站中嵌入 Rover,将提供的脚本标签添加到你的页面。
- 在网站 UI 中打开 Rover 体验,描述你希望用户执行的操作(例如“帮我结账”或“展示如何设置我的第一个工作流”)。
- 使用文档中的“启动选项”配置部署选项,包括域名和品牌(如页面所述)。
- 如果你使用带数据源的工作流,连接数据源并创建/导入字段,以便 Rover 在你的产品内执行预期工作流。
使用场景
- 无需切换页面的结账协助:当用户要求继续时,Rover 可点击并填写结账步骤,同时保持用户在同一网站体验中。
- 引导式入门和产品游览:用户可请求“展示如何操作”等帮助,Rover 通过实时与 UI 交互引导他们完成设置步骤。
- 表单填写和字段自动填充:Rover 可填写表单字段(并提供类似“正在自动填充”的状态更新),作为完成端到端任务的一部分。
- 应用内工作流执行:Rover 可在上下文中运行工作流,包括多步骤操作,如导航到功能、创建/更新对象并确认完成。
- 带引导清单的团队设置:针对团队入门,Rover 可在你的产品内引导步骤序列(例如连接数据源、导入字段、创建工作流模板、邀请队友)。
常见问题
-
Rover 需要截图或知识库吗? 页面指出,Rover 在“嵌入”体验中不使用截图或知识库。
-
Rover 如何知道点击或填写什么? 它在浏览器中读取你的实时 DOM,然后规划并执行最小动作集,如点击、输入和导航。
-
Rover 在哪里运行——网站内还是远程? Rover 被描述为嵌入式且浏览器原生,页面提到“无远程浏览器”。
-
入门需要哪些设置? 网站强调通过单个脚本标签设置,并提及用于配置的“启动选项”(包括域名和品牌)。
-
Rover 能处理引导式入门和设置步骤吗? 可以。页面描述了引导游览和上下文设置/清单,其中 Rover 与 UI 交互。
替代方案
- 基于截图/视觉的浏览器代理:这些系统通常从截图推理,每步动作可能更慢,或更难嵌入第一方 UI。
- RAG 式问答聊天机器人:常见替代是使用知识库回答问题的聊天机器人,但它无法在你的 DOM 内直接执行操作。
- 基于规则的表单自动化或 UI 宏:这些可自动化特定工作流,但通常缺乏自然语言引导和灵活的页面感知动作规划。
- 传统人工辅助支持工具(聊天 + 手动步骤):一些团队依赖支持代表引导用户,而 Rover 旨在直接在界面中执行操作。
替代品
AgentMail
AgentMail 是面向 AI 代理的邮箱收发 API,可通过 REST 创建、发送、接收与搜索邮件,实现双向对话。
LobeHub
LobeHub 是一个开源平台,旨在构建、部署和协作 AI 智能体队友,它充当通用的 LLM Web UI。
Codex Plugins
使用 Codex Plugins 将技能、应用集成和 MCP 服务器打包成可复用工作流,扩展 Codex 访问 Gmail、Google Drive 与 Slack 等工具。
Prompty Town
Prompty Town 是一个微型“链接互联网城市”:购买瓷砖,附上链接,并用文字/内容提示它,便于他人浏览探索。
Make Real
使用 tldraw SDK 绘制 UI 并将其变为现实。
Tavus
Tavus 构建可在实时面对面互动中看、听并响应的 AI 系统,并通过 API 支持视频代理、数字孪生与 AI 伴侣部署。