MolmoWeb 是什么?
MolmoWeb 是一个开源视觉网页代理,通过截图理解实时网页内容来自动化浏览器任务。给定任务指令,Molmo 模型观察当前屏幕,决定下一步行动,并执行浏览器操作,如点击、输入或滚动。
它设计为自托管系统(本地或云服务),并附带模型权重、用于训练网页代理的数据集(MolmoWebMix),以及用于复现、微调和评估网页代理行为的评测与工具。
主要特性
- 基于 Molmo 2 多模态模型家族(4B 和 8B 规模)的开源视觉网页代理,提供权重和训练相关资源用于实验。
- 基于截图的浏览器控制循环:代理接收任务指令、当前浏览器视图截图和最近操作历史,然后输出下一步浏览器操作。
- 匹配视觉界面的浏览器操作:支持导航至 URL、在屏幕坐标点击、在字段输入文字、滚动、打开/切换标签页,以及向用户发送消息。
- MolmoWeb 仓库中发布的开源训练与评测工具,包括:
- 用于将 MolmoWeb 定制到特定应用的训练代码。
- 用于记录人类任务演示并基于该数据微调的标注工具。
- 用于导航基准(WebVoyager、Online-Mind2Web、WebTailBench、Deepshop)的评测框架。
- 数据与数据集发布支持:
- 用于训练网页代理的 MolmoWebMix 数据集。
- 工具内集成的合成数据生成管道,可使用基于 LLM-/VLM- 驱动的代理(以 AxTree/截图为输入)生成网页浏览数据。
如何使用 MolmoWeb
- 从 MolmoWeb GitHub 仓库获取发布的资源和工具,包括训练代码、评测框架以及更新中描述的其他组件。
- 使用标注收集工具(如果需要特定领域行为)记录人类任务演示,然后使用提供的训练代码微调 MolmoWeb。
- 使用包含的评测框架评估代理运行结果,对支持的导航基准进行测试。
- 对于交互式检查,使用 MolmoWeb 演示的客户端代码输入任务,并实时观察代理导航网站。
使用场景
- 复现与评估网页代理性能:在常见导航基准如 WebVoyager、Online-Mind2Web、WebTailBench 或 Deepshop 上使用评测框架运行 MolmoWeb。
- 使用人类演示微调新领域:使用标注工具记录与您的网站或工作流相关的任务演示,然后在收集的数据上微调 MolmoWeb。
- 构建自定义网页代理 UI:以发布的客户端演示代码为起点,创建您自己的界面,用于向代理发送任务并查看浏览器导航。
- 生成网页浏览训练数据:使用包含的合成数据生成管道生成浏览轨迹,利用基于 LLM- 和 VLM- 驱动的代理(以 AxTree/截图为输入)。
- 端到端研究开源网页代理管道:结合数据集(MolmoWebMix)、训练代码和评测工具,检查并改进堆栈的多个部分(数据收集、训练和基准测试)。
常见问题
Hugging Face 上初始训练数据集是否已更新?
是的。页面指出,如果您之前从 Hugging Face 下载了训练数据,应重新下载,因为数据集自初始发布以来已更新。
MolmoWeb 在浏览器中能执行哪些操作?
源描述支持导航至 URL、在屏幕坐标点击、输入文字、滚动、打开或切换浏览器标签页,以及向用户发送消息。
MolmoWeb 如何决定下一步行动?
在每一步,它使用任务指令、当前浏览器视图截图和最近操作历史来生成下一步浏览器操作。
什么是 MolmoWebMix?
MolmoWebMix 被描述为用于训练网页代理的大型多样化数据集,附带完整的训练与评测管道发布。
评测框架包含什么?
评测框架被描述为用于在导航基准(包括 WebVoyager、Online-Mind2Web、WebTailBench 和 Deepshop)上评估如 MolmoWeb 等网页代理的工具。
替代方案
- 专有网页代理平台:这些可能提供开箱即用的自动化,但通常依赖未公开的训练数据和方法,不同于 MolmoWeb 的开源模型/数据/代码方法。
- 基于其他多模态模型构建的截图式浏览器自动化代理:这些也能使用视觉输入驱动浏览器操作,但可能在可用权重、数据集和评测工具上有所不同。
- 通用浏览器自动化框架(基于规则或脚本驱动):这些能自动化特定工作流,而无需从演示或基准中学习,但通常需要更多预定义逻辑。
- 专注于结构化页面表示(HTML/可访问性树)的自定义代理管道:它们使用结构化表示而非截图,从而改变感知与动作的连接方式。
替代品
AgentMail
AgentMail 是面向 AI 代理的邮箱收发 API,可通过 REST 创建、发送、接收与搜索邮件,实现双向对话。
LobeHub
LobeHub 是一个开源平台,旨在构建、部署和协作 AI 智能体队友,它充当通用的 LLM Web UI。
Codex Plugins
使用 Codex Plugins 将技能、应用集成和 MCP 服务器打包成可复用工作流,扩展 Codex 访问 Gmail、Google Drive 与 Slack 等工具。
Tavus
Tavus 构建可在实时面对面互动中看、听并响应的 AI 系统,并通过 API 支持视频代理、数字孪生与 AI 伴侣部署。
HiringPartner.ai
HiringPartner.ai 是一款自主招聘平台,内置 AI 智能代理,可 7×24 小时自动完成候选人搜索、筛选、电话沟通和面试,将招聘周期从数周压缩到最快 48 小时。
AakarDev AI
AakarDev AI 是一个强大的平台,通过无缝的向量数据库集成简化 AI 应用程序的开发,实现快速部署和可扩展性。