MolmoAct 2

MolmoAct 2とは？

MolmoAct 2は、現実世界の環境でのロボットアクション推論をサポートする完全オープンロボティクス基盤モデルです。行動前に3Dで環境を推論する必要があるタスクに焦点を当て、一般的な操作設定でのタスク別ファインチューニングの必要性を低減することを目指します。

モデルに加え、リリースにはMolmoAct 2-Bimanual YAMデータセットと、新規アダプタアーキテクチャを備えた更新VLAパイプラインが含まれます。これらは、操作や他の具現推論ベンチマークのアクション推論を研究・再現・発展させたい研究者向けです。

行動前の3D用アクション推論モデル (ARM): MolmoAct 2は行動前に環境を3Dで推論し、具現推論評価タスクの性能向上を目指します。
現実世界デプロイメント向け設計: モデルはベンチマーク検証だけでなく、現実世界環境向けに構築されています。
強化されたオープン推論バックボーン (Molmo 2-ER): MolmoAct 2はMolmo 2-ERを基盤とし、Molmo 2の具現推論特化バリアントで、追加の具現推論例（画像・動画ベースの空間問答を含む）でさらに訓練されています。
前モデルより高速推論: リリースではMolmoAct 2が前モデル比最大37倍高速と報告されています。
オープン研究パッケージ: リリースでモデルウェイト、データセット、推論深度と解釈可能性を向上させる記述された適応推論アプローチが公開されます。
操作研究向け大規模両腕データセット: MolmoAct 2-Bimanual YAMデータセットは、720時間超の訓練デモンストレーションを含む最大規模のオープンソース両腕テーブル上操作データセットと報告されています。

オープンリリースアーティファクトを取得: 研究者向けに提供されるMolmoAct 2モデルウェイトと関連アセットをダウンロード。
更新VLAパイプラインを使用: 記述された新規アダプタアーキテクチャを使用した更新パイプラインから開始。
提供データセットで訓練/評価: 両腕テーブル上操作実験ではMolmoAct 2-Bimanual YAMを使用。他の具現推論実験では、リリースの適応推論アプローチを中心とした研究ガイドラインに従う。
適応3D推論を適用: リリースで記述された適応推論手法を使用し、性能向上につながる箇所で深い3D推論を促進。

操作向けアクション推論の研究: 研究者は、テーブル上セットアップでの接触・把持・操作タスク性能に3Dアクション推論がどう影響するかを調査可能。
具現推論タスク横断のベンチマーク再現: リリースは13の具現推論ベンチマーク（例: pointing、多画像推論、ego-exo対応、動画空間推論）での評価を報告し、比較研究を可能に。
両腕テーブル上研究: 2腕操作に取り組むチームは、MolmoAct 2-Bimanual YAMデータセット（720時間超のデモンストレーション）で両腕ポリシーを訓練・評価可能。
オープン模型アーキテクチャ研究: オープン基盤モデル設定により、研究者はクローズドシステムに頼らず、モデルコンポーネント（例: 推論バックボーンとアダプタアーキテクチャ）を検証・修正可能。
タスク別ファインチューニング削減システム開発: MolmoAct 2は各種現実世界タスクをボックス外で扱うと記述されているため、カスタマイズコスト低減を目指す作業の起点として使用可能。

MolmoAct 2は研究用ですか、それとも本番デプロイ用ですか？ リリースは研究者が研究・構築できるものとして位置づけられており、MolmoAct 2は実世界環境へのデプロイを想定して構築されていると記述されています。
バイマニュアルマニピュレーション用データセットは何ですか？ リリースにはMolmoAct 2-Bimanual YAMが含まれており、世界最大のオープンソースバイマニュアルテーブル上マニピュレーションデータセットで、720時間以上のトレーニングデモンストレーションがあります。
MolmoAct 2は従来のMolmoActと何が違いますか？ 更新版には強力な推論バックボーン（Molmo 2-ER）が含まれており、リリースではMolmoAct 2が前モデルより最大37倍高速で動作すると報告されています。
タスクごとのファインチューニングは必要ですか？ リリースでは、MolmoAct 2がタスクごとのファインチューニングなしでさまざまな実世界タスクをそのまま扱えると述べられています。
リリースで言及される適応的推論アプローチとは何ですか？ ページでは、リリースに含まれる適応的推論アプローチがMolmoAct 2の3D推論を深め、パフォーマンスと解釈可能性を向上させることを目的としていると述べられています。

クローズドロボティクス基盤モデル: 一部のチームは重みを公開しますがデータは少ない；これらの代替案は研究者がデータを研究したり結果を再現したりコンポーネントを修正したりするのを制限する可能性があります。
エンボディドタスク向けアクションまたはビジョン言語モデル＋別ツール: 専用アクション推論基盤モデルではなく、一般的なビジョン言語モデルを下流ロボット制御スタックと組み合わせるチームもあります；推論とアクションが別コンポーネントで扱われるためワークフローが異なります。
マニピュレーション向け他のオープンロボティクスデータセット: 主なニーズがデータで特定のモデルアーキテクチャでない場合、研究者はオープン・マニピュレーションデータセットを使い、自前のモデル/バックボーンでポリシーを訓練できます。
エンボディド推論ベンチマークとトレーニングパイプライン: もう一つのアプローチはエンボディド推論タスク向けのベンチマーク駆動型トレーニング/評価パイプラインに焦点を当てる；特定のオープン基盤モデルリリースより評価手法と実験セットアップを重視します。