MolmoWeb

MolmoWeb 是什麼？

MolmoWeb 是一個開放式視覺網頁代理，透過截圖解讀即時網頁來自動化瀏覽器任務。給定任務指示，Molmo 模型會觀察當前畫面、決定下一步，並執行瀏覽器動作，例如點擊、輸入或滾動。

它設計為自託管系統（本地或雲端服務），並隨附模型權重、用於訓練網頁代理的資料集（MolmoWebMix），以及重現、微調與評估網頁代理行為所需的評估與工具。

基於 Molmo 2 多模態模型系列（有 4B 與 8B 尺寸）的開放視覺網頁代理，附權重與實驗用訓練資產。
基於截圖的瀏覽器控制迴圈：代理接收任務指示、當前瀏覽器視圖截圖與近期動作歷史，然後輸出下一個瀏覽器動作。
對應視覺介面的瀏覽器動作：支援導航至 URL、在畫面座標點擊、在欄位輸入文字、滾動、開啟/切換分頁，以及傳送訊息回使用者。
在 MolmoWeb 儲存庫釋出的開放訓練與評估工具，包括：
- 自訂 MolmoWeb 至特定應用的訓練程式碼。
- 記錄人類任務示範並以此資料微調的標註工具。
- 用於導航基準測試（WebVoyager、Online-Mind2Web、WebTailBench、Deepshop）的評估框架。
資料與資料集釋出支援：
- 用於訓練網頁代理的 MolmoWebMix 資料集。
- 工具內的合成資料生成管線，可使用具 AxTree/截圖輸入的 LLM-/VLM 驅動代理生成網頁瀏覽資料。

重現與評估網頁代理效能：在常見導航基準測試（如 WebVoyager、Online-Mind2Web、WebTailBench 或 Deepshop）上，使用評估框架執行 MolmoWeb。
以人類示範微調新領域：使用標註工具記錄與您的網站或工作流程相關的任務示範，然後以此收集資料微調 MolmoWeb。
建置自訂網頁代理 UI：以釋出的客戶端示範程式碼為起點，建立傳送任務給代理並檢視瀏覽器導航的專屬介面。
生成網頁瀏覽訓練資料：使用內附合成資料生成管線，產生瀏覽軌跡，活用具 AxTree/截圖輸入的 LLM- 與 VLM 驅動代理。
端到端研究開放網頁代理管線：結合資料集（MolmoWebMix）、訓練程式碼與評估工具，檢查並改善堆疊的多個部分（資料收集、訓練與基準測試）。

Hugging Face 上初始訓練資料集有更新嗎？
有。頁面註明，若您先前從 Hugging Face 下載訓練資料，應重新下載，因為資料集自初次釋出後已更新。

MolmoWeb 在瀏覽器中能執行哪些動作？
原始描述支援導航至 URL、在畫面座標點擊、輸入文字、滾動、開啟或切換瀏覽器分頁，以及傳送訊息回使用者。

MolmoWeb 如何決定下一步？
在每個步驟，它使用任務指示、當前瀏覽器視圖截圖與近期動作歷史，產生下一個瀏覽器動作。

什麼是 MolmoWebMix？
MolmoWebMix 是用於訓練網頁代理的大型多元資料集，隨完整訓練與評估管線釋出。

評估框架包含什麼？
評估框架是用於在導航基準測試（包括 WebVoyager、Online-Mind2Web、WebTailBench 與 Deepshop）上評估如 MolmoWeb 等網頁代理的工具。