UStackUStack
MolmoWeb icon

MolmoWeb

MolmoWeb 是開放式視覺網頁代理,只靠截圖就能完成瀏覽器任務;配套 MolmoWebMix 與訓練、評估工具釋出。

MolmoWeb

MolmoWeb 是什麼?

MolmoWeb 是一個開放式視覺網頁代理,透過截圖解讀即時網頁來自動化瀏覽器任務。給定任務指示,Molmo 模型會觀察當前畫面、決定下一步,並執行瀏覽器動作,例如點擊、輸入或滾動。

它設計為自託管系統(本地或雲端服務),並隨附模型權重、用於訓練網頁代理的資料集(MolmoWebMix),以及重現、微調與評估網頁代理行為所需的評估與工具。

主要功能

  • 基於 Molmo 2 多模態模型系列(有 4B 與 8B 尺寸)的開放視覺網頁代理,附權重與實驗用訓練資產。
  • 基於截圖的瀏覽器控制迴圈:代理接收任務指示、當前瀏覽器視圖截圖與近期動作歷史,然後輸出下一個瀏覽器動作。
  • 對應視覺介面的瀏覽器動作:支援導航至 URL、在畫面座標點擊、在欄位輸入文字、滾動、開啟/切換分頁,以及傳送訊息回使用者。
  • 在 MolmoWeb 儲存庫釋出的開放訓練與評估工具,包括:
    • 自訂 MolmoWeb 至特定應用的訓練程式碼。
    • 記錄人類任務示範並以此資料微調的標註工具。
    • 用於導航基準測試(WebVoyager、Online-Mind2Web、WebTailBench、Deepshop)的評估框架。
  • 資料與資料集釋出支援:
    • 用於訓練網頁代理的 MolmoWebMix 資料集。
    • 工具內的合成資料生成管線,可使用具 AxTree/截圖輸入的 LLM-/VLM 驅動代理生成網頁瀏覽資料。

如何使用 MolmoWeb

  1. 從 MolmoWeb GitHub 儲存庫取得釋出資產與工具,包括訓練程式碼、評估框架,以及更新中描述的其他元件。
  2. 使用標註收集工具(若需特定領域行為)記錄人類任務示範,然後以提供的訓練程式碼微調 MolmoWeb。
  3. 使用內附評估框架,對支援的導航基準測試評估代理執行結果。
  4. 進行互動檢查時,使用 MolmoWeb 示範的客戶端程式碼輸入任務,並即時觀察代理在網站上的導航。

使用案例

  • 重現與評估網頁代理效能:在常見導航基準測試(如 WebVoyager、Online-Mind2Web、WebTailBench 或 Deepshop)上,使用評估框架執行 MolmoWeb。
  • 以人類示範微調新領域:使用標註工具記錄與您的網站或工作流程相關的任務示範,然後以此收集資料微調 MolmoWeb。
  • 建置自訂網頁代理 UI:以釋出的客戶端示範程式碼為起點,建立傳送任務給代理並檢視瀏覽器導航的專屬介面。
  • 生成網頁瀏覽訓練資料:使用內附合成資料生成管線,產生瀏覽軌跡,活用具 AxTree/截圖輸入的 LLM- 與 VLM 驅動代理。
  • 端到端研究開放網頁代理管線:結合資料集(MolmoWebMix)、訓練程式碼與評估工具,檢查並改善堆疊的多個部分(資料收集、訓練與基準測試)。

常見問題

Hugging Face 上初始訓練資料集有更新嗎?
有。頁面註明,若您先前從 Hugging Face 下載訓練資料,應重新下載,因為資料集自初次釋出後已更新。

MolmoWeb 在瀏覽器中能執行哪些動作?
原始描述支援導航至 URL、在畫面座標點擊、輸入文字、滾動、開啟或切換瀏覽器分頁,以及傳送訊息回使用者。

MolmoWeb 如何決定下一步?
在每個步驟,它使用任務指示、當前瀏覽器視圖截圖與近期動作歷史,產生下一個瀏覽器動作。

什麼是 MolmoWebMix?
MolmoWebMix 是用於訓練網頁代理的大型多元資料集,隨完整訓練與評估管線釋出。

評估框架包含什麼?
評估框架是用於在導航基準測試(包括 WebVoyager、Online-Mind2Web、WebTailBench 與 Deepshop)上評估如 MolmoWeb 等網頁代理的工具。

替代方案

  • 專有網頁代理平台:這些可能提供現成自動化,但通常依賴未公開的訓練資料與方法,不同於 MolmoWeb 的開放模型/資料/程式碼方法。
  • 基於其他多模態模型建構的截圖式瀏覽器自動化代理:這些也能用視覺輸入驅動瀏覽器動作,但可能在可用權重、資料集與評估工具上有所不同。
  • 通用瀏覽器自動化框架(基於規則或腳本驅動):這些能自動化特定工作流程,而無需從示範或基準學習,但通常需要更多預定義邏輯。
  • 專注於結構化頁面表示(HTML/輔助功能樹)的自訂代理管線:它們使用結構化表示而非截圖,從而改變感知與動作的連結方式。
MolmoWeb | UStack