UStackUStack
MolmoWeb icon

MolmoWeb

MolmoWeb 是开源视觉网页代理,仅凭截图理解并完成浏览任务;配套 MolmoWebMix 训练与评测工具可复现、微调和评估。

MolmoWeb

MolmoWeb 是什么?

MolmoWeb 是一个开源视觉网页代理,通过截图理解实时网页内容来自动化浏览器任务。给定任务指令,Molmo 模型观察当前屏幕,决定下一步行动,并执行浏览器操作,如点击、输入或滚动。

它设计为自托管系统(本地或云服务),并附带模型权重、用于训练网页代理的数据集(MolmoWebMix),以及用于复现、微调和评估网页代理行为的评测与工具。

主要特性

  • 基于 Molmo 2 多模态模型家族(4B 和 8B 规模)的开源视觉网页代理,提供权重和训练相关资源用于实验。
  • 基于截图的浏览器控制循环:代理接收任务指令、当前浏览器视图截图和最近操作历史,然后输出下一步浏览器操作。
  • 匹配视觉界面的浏览器操作:支持导航至 URL、在屏幕坐标点击、在字段输入文字、滚动、打开/切换标签页,以及向用户发送消息。
  • MolmoWeb 仓库中发布的开源训练与评测工具,包括:
    • 用于将 MolmoWeb 定制到特定应用的训练代码。
    • 用于记录人类任务演示并基于该数据微调的标注工具。
    • 用于导航基准(WebVoyager、Online-Mind2Web、WebTailBench、Deepshop)的评测框架。
  • 数据与数据集发布支持:
    • 用于训练网页代理的 MolmoWebMix 数据集。
    • 工具内集成的合成数据生成管道,可使用基于 LLM-/VLM- 驱动的代理(以 AxTree/截图为输入)生成网页浏览数据。

如何使用 MolmoWeb

  1. 从 MolmoWeb GitHub 仓库获取发布的资源和工具,包括训练代码、评测框架以及更新中描述的其他组件。
  2. 使用标注收集工具(如果需要特定领域行为)记录人类任务演示,然后使用提供的训练代码微调 MolmoWeb。
  3. 使用包含的评测框架评估代理运行结果,对支持的导航基准进行测试。
  4. 对于交互式检查,使用 MolmoWeb 演示的客户端代码输入任务,并实时观察代理导航网站。

使用场景

  • 复现与评估网页代理性能:在常见导航基准如 WebVoyager、Online-Mind2Web、WebTailBench 或 Deepshop 上使用评测框架运行 MolmoWeb。
  • 使用人类演示微调新领域:使用标注工具记录与您的网站或工作流相关的任务演示,然后在收集的数据上微调 MolmoWeb。
  • 构建自定义网页代理 UI:以发布的客户端演示代码为起点,创建您自己的界面,用于向代理发送任务并查看浏览器导航。
  • 生成网页浏览训练数据:使用包含的合成数据生成管道生成浏览轨迹,利用基于 LLM- 和 VLM- 驱动的代理(以 AxTree/截图为输入)。
  • 端到端研究开源网页代理管道:结合数据集(MolmoWebMix)、训练代码和评测工具,检查并改进堆栈的多个部分(数据收集、训练和基准测试)。

常见问题

Hugging Face 上初始训练数据集是否已更新?
是的。页面指出,如果您之前从 Hugging Face 下载了训练数据,应重新下载,因为数据集自初始发布以来已更新。

MolmoWeb 在浏览器中能执行哪些操作?
源描述支持导航至 URL、在屏幕坐标点击、输入文字、滚动、打开或切换浏览器标签页,以及向用户发送消息。

MolmoWeb 如何决定下一步行动?
在每一步,它使用任务指令、当前浏览器视图截图和最近操作历史来生成下一步浏览器操作。

什么是 MolmoWebMix?
MolmoWebMix 被描述为用于训练网页代理的大型多样化数据集,附带完整的训练与评测管道发布。

评测框架包含什么?
评测框架被描述为用于在导航基准(包括 WebVoyager、Online-Mind2Web、WebTailBench 和 Deepshop)上评估如 MolmoWeb 等网页代理的工具。

替代方案

  • 专有网页代理平台:这些可能提供开箱即用的自动化,但通常依赖未公开的训练数据和方法,不同于 MolmoWeb 的开源模型/数据/代码方法。
  • 基于其他多模态模型构建的截图式浏览器自动化代理:这些也能使用视觉输入驱动浏览器操作,但可能在可用权重、数据集和评测工具上有所不同。
  • 通用浏览器自动化框架(基于规则或脚本驱动):这些能自动化特定工作流,而无需从演示或基准中学习,但通常需要更多预定义逻辑。
  • 专注于结构化页面表示(HTML/可访问性树)的自定义代理管道:它们使用结构化表示而非截图,从而改变感知与动作的连接方式。
MolmoWeb | UStack