MolmoWeb 是什麼?
MolmoWeb 是一個開放式視覺網頁代理,透過截圖解讀即時網頁來自動化瀏覽器任務。給定任務指示,Molmo 模型會觀察當前畫面、決定下一步,並執行瀏覽器動作,例如點擊、輸入或滾動。
它設計為自託管系統(本地或雲端服務),並隨附模型權重、用於訓練網頁代理的資料集(MolmoWebMix),以及重現、微調與評估網頁代理行為所需的評估與工具。
主要功能
- 基於 Molmo 2 多模態模型系列(有 4B 與 8B 尺寸)的開放視覺網頁代理,附權重與實驗用訓練資產。
- 基於截圖的瀏覽器控制迴圈:代理接收任務指示、當前瀏覽器視圖截圖與近期動作歷史,然後輸出下一個瀏覽器動作。
- 對應視覺介面的瀏覽器動作:支援導航至 URL、在畫面座標點擊、在欄位輸入文字、滾動、開啟/切換分頁,以及傳送訊息回使用者。
- 在 MolmoWeb 儲存庫釋出的開放訓練與評估工具,包括:
- 自訂 MolmoWeb 至特定應用的訓練程式碼。
- 記錄人類任務示範並以此資料微調的標註工具。
- 用於導航基準測試(WebVoyager、Online-Mind2Web、WebTailBench、Deepshop)的評估框架。
- 資料與資料集釋出支援:
- 用於訓練網頁代理的 MolmoWebMix 資料集。
- 工具內的合成資料生成管線,可使用具 AxTree/截圖輸入的 LLM-/VLM 驅動代理生成網頁瀏覽資料。
如何使用 MolmoWeb
- 從 MolmoWeb GitHub 儲存庫取得釋出資產與工具,包括訓練程式碼、評估框架,以及更新中描述的其他元件。
- 使用標註收集工具(若需特定領域行為)記錄人類任務示範,然後以提供的訓練程式碼微調 MolmoWeb。
- 使用內附評估框架,對支援的導航基準測試評估代理執行結果。
- 進行互動檢查時,使用 MolmoWeb 示範的客戶端程式碼輸入任務,並即時觀察代理在網站上的導航。
使用案例
- 重現與評估網頁代理效能:在常見導航基準測試(如 WebVoyager、Online-Mind2Web、WebTailBench 或 Deepshop)上,使用評估框架執行 MolmoWeb。
- 以人類示範微調新領域:使用標註工具記錄與您的網站或工作流程相關的任務示範,然後以此收集資料微調 MolmoWeb。
- 建置自訂網頁代理 UI:以釋出的客戶端示範程式碼為起點,建立傳送任務給代理並檢視瀏覽器導航的專屬介面。
- 生成網頁瀏覽訓練資料:使用內附合成資料生成管線,產生瀏覽軌跡,活用具 AxTree/截圖輸入的 LLM- 與 VLM 驅動代理。
- 端到端研究開放網頁代理管線:結合資料集(MolmoWebMix)、訓練程式碼與評估工具,檢查並改善堆疊的多個部分(資料收集、訓練與基準測試)。
常見問題
Hugging Face 上初始訓練資料集有更新嗎?
有。頁面註明,若您先前從 Hugging Face 下載訓練資料,應重新下載,因為資料集自初次釋出後已更新。
MolmoWeb 在瀏覽器中能執行哪些動作?
原始描述支援導航至 URL、在畫面座標點擊、輸入文字、滾動、開啟或切換瀏覽器分頁,以及傳送訊息回使用者。
MolmoWeb 如何決定下一步?
在每個步驟,它使用任務指示、當前瀏覽器視圖截圖與近期動作歷史,產生下一個瀏覽器動作。
什麼是 MolmoWebMix?
MolmoWebMix 是用於訓練網頁代理的大型多元資料集,隨完整訓練與評估管線釋出。
評估框架包含什麼?
評估框架是用於在導航基準測試(包括 WebVoyager、Online-Mind2Web、WebTailBench 與 Deepshop)上評估如 MolmoWeb 等網頁代理的工具。
替代方案
- 專有網頁代理平台:這些可能提供現成自動化,但通常依賴未公開的訓練資料與方法,不同於 MolmoWeb 的開放模型/資料/程式碼方法。
- 基於其他多模態模型建構的截圖式瀏覽器自動化代理:這些也能用視覺輸入驅動瀏覽器動作,但可能在可用權重、資料集與評估工具上有所不同。
- 通用瀏覽器自動化框架(基於規則或腳本驅動):這些能自動化特定工作流程,而無需從示範或基準學習,但通常需要更多預定義邏輯。
- 專注於結構化頁面表示(HTML/輔助功能樹)的自訂代理管線:它們使用結構化表示而非截圖,從而改變感知與動作的連結方式。
替代品
AgentMail
AgentMail 是供 AI 代理使用的電子郵件收件匣 API:透過 REST 建立、寄送、接收與搜尋郵件,支援雙向對話。
LobeHub
LobeHub 是一個開源平台,專為構建、部署和協作 AI 代理隊友而設計,可作為通用的 LLM Web UI。
Codex Plugins
使用 Codex Plugins 將技能、應用程式整合與 MCP 伺服器打包成可重複使用的工作流程,讓 Codex 存取 Gmail、Google Drive、Slack 等工具。
Tavus
Tavus 提供用於即時、面對面互動的 AI,能看、聽並回應;也透過 API 支援可部署影片代理、數位分身與 AI 夥伴。
HiringPartner.ai
HiringPartner.ai 是一款自動化招聘平台,內建 AI 智能代理,可 7×24 小時自動搜尋、篩選、撥打電話並面試候選人,將招聘周期從數週縮短到最快 48 小時。
AakarDev AI
AakarDev AI 是一個強大的平台,通過無縫的向量資料庫整合簡化 AI 應用程式的開發,實現快速部署和可擴展性。