MolmoWeb 是什么?
MolmoWeb 是一个开源视觉网页代理,通过截图理解实时网页内容来自动化浏览器任务。给定任务指令,Molmo 模型观察当前屏幕,决定下一步行动,并执行浏览器操作,如点击、输入或滚动。
它设计为自托管系统(本地或云服务),并附带模型权重、用于训练网页代理的数据集(MolmoWebMix),以及用于复现、微调和评估网页代理行为的评测与工具。
主要特性
- 基于 Molmo 2 多模态模型家族(4B 和 8B 规模)的开源视觉网页代理,提供权重和训练相关资源用于实验。
- 基于截图的浏览器控制循环:代理接收任务指令、当前浏览器视图截图和最近操作历史,然后输出下一步浏览器操作。
- 匹配视觉界面的浏览器操作:支持导航至 URL、在屏幕坐标点击、在字段输入文字、滚动、打开/切换标签页,以及向用户发送消息。
- MolmoWeb 仓库中发布的开源训练与评测工具,包括:
- 用于将 MolmoWeb 定制到特定应用的训练代码。
- 用于记录人类任务演示并基于该数据微调的标注工具。
- 用于导航基准(WebVoyager、Online-Mind2Web、WebTailBench、Deepshop)的评测框架。
- 数据与数据集发布支持:
- 用于训练网页代理的 MolmoWebMix 数据集。
- 工具内集成的合成数据生成管道,可使用基于 LLM-/VLM- 驱动的代理(以 AxTree/截图为输入)生成网页浏览数据。
如何使用 MolmoWeb
- 从 MolmoWeb GitHub 仓库获取发布的资源和工具,包括训练代码、评测框架以及更新中描述的其他组件。
- 使用标注收集工具(如果需要特定领域行为)记录人类任务演示,然后使用提供的训练代码微调 MolmoWeb。
- 使用包含的评测框架评估代理运行结果,对支持的导航基准进行测试。
- 对于交互式检查,使用 MolmoWeb 演示的客户端代码输入任务,并实时观察代理导航网站。
使用场景
- 复现与评估网页代理性能:在常见导航基准如 WebVoyager、Online-Mind2Web、WebTailBench 或 Deepshop 上使用评测框架运行 MolmoWeb。
- 使用人类演示微调新领域:使用标注工具记录与您的网站或工作流相关的任务演示,然后在收集的数据上微调 MolmoWeb。
- 构建自定义网页代理 UI:以发布的客户端演示代码为起点,创建您自己的界面,用于向代理发送任务并查看浏览器导航。
- 生成网页浏览训练数据:使用包含的合成数据生成管道生成浏览轨迹,利用基于 LLM- 和 VLM- 驱动的代理(以 AxTree/截图为输入)。
- 端到端研究开源网页代理管道:结合数据集(MolmoWebMix)、训练代码和评测工具,检查并改进堆栈的多个部分(数据收集、训练和基准测试)。
常见问题
Hugging Face 上初始训练数据集是否已更新?
是的。页面指出,如果您之前从 Hugging Face 下载了训练数据,应重新下载,因为数据集自初始发布以来已更新。
MolmoWeb 在浏览器中能执行哪些操作?
源描述支持导航至 URL、在屏幕坐标点击、输入文字、滚动、打开或切换浏览器标签页,以及向用户发送消息。
MolmoWeb 如何决定下一步行动?
在每一步,它使用任务指令、当前浏览器视图截图和最近操作历史来生成下一步浏览器操作。
什么是 MolmoWebMix?
MolmoWebMix 被描述为用于训练网页代理的大型多样化数据集,附带完整的训练与评测管道发布。
评测框架包含什么?
评测框架被描述为用于在导航基准(包括 WebVoyager、Online-Mind2Web、WebTailBench 和 Deepshop)上评估如 MolmoWeb 等网页代理的工具。
替代方案
- 专有网页代理平台:这些可能提供开箱即用的自动化,但通常依赖未公开的训练数据和方法,不同于 MolmoWeb 的开源模型/数据/代码方法。
- 基于其他多模态模型构建的截图式浏览器自动化代理:这些也能使用视觉输入驱动浏览器操作,但可能在可用权重、数据集和评测工具上有所不同。
- 通用浏览器自动化框架(基于规则或脚本驱动):这些能自动化特定工作流,而无需从演示或基准中学习,但通常需要更多预定义逻辑。
- 专注于结构化页面表示(HTML/可访问性树)的自定义代理管道:它们使用结构化表示而非截图,从而改变感知与动作的连接方式。
替代品
AgentMail
AgentMail 是面向 AI 代理的邮箱收发 API,可通过 REST 创建、发送、接收与搜索邮件,实现双向对话。
LobeHub
LobeHub 是一个开源平台,旨在构建、部署和协作 AI 智能体队友,它充当通用的 LLM Web UI。
Lasso
Lasso 是面向电商团队的 AI 优先 PIM,可丰富商品属性与描述、处理供应商数据,并通过应用或 API 支持竞品监控。
Codex Plugins
使用 Codex Plugins 将技能、应用集成和 MCP 服务器打包成可复用工作流,扩展 Codex 访问 Gmail、Google Drive 与 Slack 等工具。
Tavus
Tavus 构建可在实时面对面互动中看、听并响应的 AI 系统,并通过 API 支持视频代理、数字孪生与 AI 伴侣部署。
HiringPartner.ai
HiringPartner.ai 是一款自主招聘平台,内置 AI 智能代理,可 7×24 小时自动完成候选人搜索、筛选、电话沟通和面试,将招聘周期从数周压缩到最快 48 小时。