MolmoAct 2

MolmoAct 2 是全開源機器人基礎模型，支援 3D 動作推理；搭配 MolmoAct 2-Bimanual YAM 資料集，利於可重現的雙手操作研究。

大型語言模型

MolmoAct 2

MolmoAct 2 是什麼？

MolmoAct 2 是一款全開源機器人基礎模型，專為支援真實環境中的機器人動作推理而設計。它專注於需要系統在行動前以 3D 方式推理環境的任務，旨在減少常見操作情境中每任務微調的需求。

除了模型外，此發布還包含 MolmoAct 2-Bimanual YAM 資料集，以及採用新型適配器架構的更新 VLA 管線。這些資源旨在供研究人員研究、可重現並建構基於操作及其他具身推理基準的動作推理。

主要特色

行動前 3D 動作推理模型 (ARM)：MolmoAct 2 在採取行動前以 3D 方式推理環境，針對具身推理評估任務提升效能。
適用於真實世界部署情境：該模型專為真實環境打造，不僅限於基準驗證。
升級開源推理骨幹 (Molmo 2-ER)：MolmoAct 2 基於 Molmo 2-ER，這是 Molmo 2 的具身推理專用變體，進一步訓練於額外具身推理範例（包含影像與影片空間問答）。
推理速度比前代快：發布報告顯示 MolmoAct 2 運行速度比前代 快達 37 倍。
開源研究套件：發布提供模型權重、資料集，以及所述適應性推理方法，用以提升推理深度與可解釋性。
大型雙手操作研究資料集：MolmoAct 2-Bimanual YAM 資料集為最大開源雙手桌面操作資料集，包含 超過 720 小時 的訓練示範。

如何使用 MolmoAct 2

取得開源發布資源：下載發布提供的 MolmoAct 2 模型權重及相關資產，供研究人員使用。
使用更新 VLA 管線：從採用所述 新型適配器架構 的更新管線開始。
使用提供的資料集進行訓練/評估：雙手桌面操作實驗使用 MolmoAct 2-Bimanual YAM；其他具身推理實驗則遵循發布中關於適應性推理方法的研討指引。
應用適應性 3D 推理：使用發布所述適應性推理方法，在效能提升處鼓勵更深入的 3D 推理。

使用情境

研究操作動作推理：研究人員可探討 3D 動作推理如何影響桌面情境中接觸、抓取及操作物件任務的效能。
跨具身推理任務基準重現：發布涵蓋 13 項具身推理基準評估（例如指向、多影像推理、自我-外部對應、影片空間推理），便於比較研究。
雙手桌面研究：從事雙臂操作的團隊可使用 MolmoAct 2-Bimanual YAM 資料集（超過 720 小時示範）來訓練及評估雙手策略。
開源模型架構研究：開源基礎模型設定讓研究人員檢查及修改模型元件（例如推理骨幹與適配器架構），而非依賴封閉系統。
開發減少每任務微調的系統：由於 MolmoAct 2 被描述為開箱即用處理各種真實任務，可作為降低自訂成本工作的起點。

常見問題

MolmoAct 2 是用於研究還是生產部署？
本次發佈明確定位為供研究人員研究與建構之用，同時描述 MolmoAct 2 適用於真實世界環境部署。
雙手操作包含哪些資料集？
本次發佈包含 MolmoAct 2-Bimanual YAM，描述為最大的開源雙手桌面操作資料集，包含 超過 720 小時 的訓練示範。
MolmoAct 2 與先前的 MolmoAct 有何不同？
更新包含更強大的推理骨幹 (Molmo 2-ER)，發佈報告 MolmoAct 2 執行速度比前一代 快達 37 倍。
模型是否需要每任務微調？
發佈指出 MolmoAct 2 可無需每任務微調，即開箱即用處理各種真實世界任務。
發佈中提到的自適應推理方法是什麼？
頁面指出發佈包含自適應推理方法，旨在幫助 MolmoAct 2 在 3D 中更深入推理，提升效能與可解釋性。

替代方案

封閉機器人基礎模型：有些團隊發佈權重但較少發佈資料；這些替代方案可能限制研究人員研究資料、重現結果或修改元件的方式。
用於具身任務的動作或視覺語言模型，搭配獨立工具：而非專用動作推理基礎模型，有些團隊可能結合通用視覺語言模型與下游機器人控制堆疊；這在工作流程上不同，因為推理與動作可能由獨立元件處理。
其他開源機器人操作資料集：若主要需求是資料而非特定模型架構，研究人員可使用開源操作資料集，並以自家模型/骨幹選擇訓練策略。
具身推理基準與訓練管線：另一方法是聚焦於具身推理任務的基準驅動訓練/評估管線；這與特定開源基礎模型發佈不同，強調評估方法與實驗設定。

替代品

AakarDev AI

AakarDev AI 是一個強大的平台，通過無縫的向量資料庫整合簡化 AI 應用程式的開發，實現快速部署和可擴展性。

BookAI.chat

BookAI允許您透過簡單提供書名和作者與您的書籍進行AI聊天。

skills-janitor

skills-janitor 可審核並追蹤 Claude Code 技能用量，與 9 個聚焦指令做比較，幫你找重複與缺失資訊，無需依賴。

FeelFish

FeelFish AI小說寫作代理 PC 端用戶端，協助規劃角色與世界觀、生成與編輯章節，並以內容脈絡延續劇情一致性。

BenchSpan

BenchSpan 以並行方式執行 AI agent 基準測試，記錄分數與失敗，並以 commit 標記可重現結果，降低失敗重跑的 token 浪費。

ChatBA

ChatBA 用聊天式工作流程，從你的輸入快速生成簡報內容，輕鬆把想法轉成投影片套件。