UStackUStack
MolmoWeb icon

MolmoWeb

MolmoWebはスクリーンショットのみでブラウザ作業を完了するオープンビジュアルWebエージェント。MolmoWebMixと学習・評価ツール付き。

MolmoWeb

MolmoWebとは?

MolmoWebは、スクリーンショットでライブのウェブページを解釈し、ブラウザタスクを自動化するオープンビジュアルWebエージェントです。タスク指示を受け取ると、Molmoモデルが現在の画面を観察し、次のステップを決定して、クリック、入力、スクロールなどのブラウザアクションを実行します。

セルフホスト型システム(ローカルまたはクラウドサービス上)として設計されており、モデルウェイト、Webエージェント学習用データセット(MolmoWebMix)、再現・ファインチューニング・評価に必要なツールと一緒にリリースされています。

主な機能

  • Molmo 2マルチモーダルモデルファミリー(4Bおよび8Bサイズ)ベースのオープンなビジュアルWebエージェント。実験用のウェイトと学習関連アセット付き。
  • スクリーンショットベースのブラウザ制御ループ:エージェントはタスク指示、現在のブラウザビューのスクリーンショット、最近のアクション履歴を受け取り、次のブラウザアクションを出力。
  • ビジュアルインターフェースにマッチしたブラウザアクション:URLへの移動、画面座標でのクリック、フィールドへの入力、スクロール、タブの開く/切り替え、ユーザーへのメッセージ送信をサポート。
  • MolmoWebリポジトリでリリースされたオープンな学習・評価ツール群:
    • 特定アプリケーション向けMolmoWebのカスタマイズ用学習コード。
    • 人間のタスクデモンストレーションを記録し、そのデータでファインチューニングするアノテーションツール。
    • ナビゲーションベンチマーク(WebVoyager、Online-Mind2Web、WebTailBench、Deepshop)用の評価ハーネス。
  • データとデータセットリリースサポート:
    • Webエージェント学習用MolmoWebMixデータセット。
    • ツール内に含まれる合成データ生成パイプライン。AxTree/スクリーンショット入力を用いたLLM-/VLM駆動エージェントでWeb閲覧データを生成可能。

MolmoWebの使い方

  1. MolmoWeb GitHubリポジトリからリリースされたアセットとツール(学習コード、評価ハーネス、その他の更新で説明されたコンポーネント)を取得。
  2. ドメイン特化動作が必要な場合、アノテーション収集ツールで人間のタスクデモンストレーションを記録し、提供された学習コードでMolmoWebをファインチューニング。
  3. 含まれる評価ハーネスで、サポートベンチマークに対してエージェント実行を評価。
  4. インタラクティブな確認用に、MolmoWebデモのクライアントサイドコードを使い、タスク入力とリアルタイムのウェブサイトナビゲーション観察。

ユースケース

  • Webエージェント性能の再現・評価:評価ハーネスでMolmoWebを実行し、WebVoyager、Online-Mind2Web、WebTailBench、Deepshopなどの一般ナビゲーションベンチマークをテスト。
  • 人間デモンストレーションで新ドメイン向けファインチューニング:アノテーションツールでウェブサイトやワークフロー関連タスクデモンストレーションを記録し、収集データでMolmoWebをファインチューニング。
  • カスタムWebエージェントUI構築:リリースされたクライアントサイドデモコードを起点に、タスク送信とブラウザナビゲーション表示用の独自インターフェースを作成。
  • Web閲覧用学習データ生成:含まれる合成データ生成パイプラインを使い、AxTree/スクリーンショット入力を活用したLLM-/VLM駆動エージェントで閲覧軌跡を生成。
  • オープンWebエージェントパイプラインのエンドツーエンド研究:データセット(MolmoWebMix)、学習コード、評価ツールの組み合わせで、スタックの複数部分(データ収集、学習、ベンチマーク)を検証・改善。

FAQ

Hugging Faceでリリースされた初期学習データセットは更新されましたか?
はい。ページに記載の通り、以前Hugging Faceから学習データをダウンロードした場合、初期リリース以降データセットが更新されたため、再ダウンロードしてください。

MolmoWebはブラウザでどのようなアクションを実行できますか?
ソースでは、URLへの移動、画面座標クリック、テキスト入力、スクロール、ブラウザタブの開く/切り替え、ユーザーへのメッセージ送信をサポートすると記述。

MolmoWebは次のアクションをどのように決定しますか?
各ステップで、タスク指示、現在のブラウザビューのスクリーンショット、最近のアクション履歴を使って次のブラウザアクションを生成。

MolmoWebMixとは?
MolmoWebMixは、完全な学習・評価パイプラインと一緒にリリースされた、大規模で多様なWebエージェント学習用データセット。

評価ハーネスには何が含まれますか?
評価ハーネスは、MolmoWebのようなWebエージェントをWebVoyager、Online-Mind2Web、WebTailBench、Deepshopなどのナビゲーションベンチマークで評価するツール。

代替案

  • 独自Webエージェントプラットフォーム:ターンキー自動化を提供する可能性がありますが、通常非公開の訓練データと手法に依存し、MolmoWebのオープンなモデル/データ/コードアプローチとは異なります。
  • 他のマルチモーダルモデルから構築されたスクリーンショットベースのブラウザ自動化エージェント:視覚入力を使ってブラウザアクションを駆動できますが、利用可能な重み、データセット、評価ツールが異なる場合があります。
  • 汎用ブラウザ自動化フレームワーク(ルールベースまたはスクリプト駆動):デモンストレーションやベンチマークから学習せずに特定のワークフローを自動化できますが、通常より多くの事前定義ロジックを必要とします。
  • 構造化ページ表現(HTML/アクセシビリティツリー)に焦点を当てたカスタムエージェントパイプライン:スクリーンショットではなく構造化表現を使用し、知覚とアクションのつながり方を変えます。
MolmoWeb | UStack