MolmoAct 2 是什麼?
MolmoAct 2 是一款全開源機器人基礎模型,專為支援真實環境中的機器人動作推理而設計。它專注於需要系統在行動前以 3D 方式推理環境的任務,旨在減少常見操作情境中每任務微調的需求。
除了模型外,此發布還包含 MolmoAct 2-Bimanual YAM 資料集,以及採用新型適配器架構的更新 VLA 管線。這些資源旨在供研究人員研究、可重現並建構基於操作及其他具身推理基準的動作推理。
主要特色
- 行動前 3D 動作推理模型 (ARM):MolmoAct 2 在採取行動前以 3D 方式推理環境,針對具身推理評估任務提升效能。
- 適用於真實世界部署情境:該模型專為真實環境打造,不僅限於基準驗證。
- 升級開源推理骨幹 (Molmo 2-ER):MolmoAct 2 基於 Molmo 2-ER,這是 Molmo 2 的具身推理專用變體,進一步訓練於額外具身推理範例(包含影像與影片空間問答)。
- 推理速度比前代快:發布報告顯示 MolmoAct 2 運行速度比前代 快達 37 倍。
- 開源研究套件:發布提供模型權重、資料集,以及所述適應性推理方法,用以提升推理深度與可解釋性。
- 大型雙手操作研究資料集:MolmoAct 2-Bimanual YAM 資料集為最大開源雙手桌面操作資料集,包含 超過 720 小時 的訓練示範。
如何使用 MolmoAct 2
- 取得開源發布資源:下載發布提供的 MolmoAct 2 模型權重及相關資產,供研究人員使用。
- 使用更新 VLA 管線:從採用所述 新型適配器架構 的更新管線開始。
- 使用提供的資料集進行訓練/評估:雙手桌面操作實驗使用 MolmoAct 2-Bimanual YAM;其他具身推理實驗則遵循發布中關於適應性推理方法的研討指引。
- 應用適應性 3D 推理:使用發布所述適應性推理方法,在效能提升處鼓勵更深入的 3D 推理。
使用情境
- 研究操作動作推理:研究人員可探討 3D 動作推理如何影響桌面情境中接觸、抓取及操作物件任務的效能。
- 跨具身推理任務基準重現:發布涵蓋 13 項具身推理基準評估(例如指向、多影像推理、自我-外部對應、影片空間推理),便於比較研究。
- 雙手桌面研究:從事雙臂操作的團隊可使用 MolmoAct 2-Bimanual YAM 資料集(超過 720 小時示範)來訓練及評估雙手策略。
- 開源模型架構研究:開源基礎模型設定讓研究人員檢查及修改模型元件(例如推理骨幹與適配器架構),而非依賴封閉系統。
- 開發減少每任務微調的系統:由於 MolmoAct 2 被描述為開箱即用處理各種真實任務,可作為降低自訂成本工作的起點。
常見問題
-
MolmoAct 2 是用於研究還是生產部署?
本次發佈明確定位為供研究人員研究與建構之用,同時描述 MolmoAct 2 適用於真實世界環境部署。 -
雙手操作包含哪些資料集?
本次發佈包含 MolmoAct 2-Bimanual YAM,描述為最大的開源雙手桌面操作資料集,包含 超過 720 小時 的訓練示範。 -
MolmoAct 2 與先前的 MolmoAct 有何不同?
更新包含更強大的推理骨幹 (Molmo 2-ER),發佈報告 MolmoAct 2 執行速度比前一代 快達 37 倍。 -
模型是否需要每任務微調?
發佈指出 MolmoAct 2 可無需每任務微調,即開箱即用處理各種真實世界任務。 -
發佈中提到的自適應推理方法是什麼?
頁面指出發佈包含自適應推理方法,旨在幫助 MolmoAct 2 在 3D 中更深入推理,提升效能與可解釋性。
替代方案
- 封閉機器人基礎模型:有些團隊發佈權重但較少發佈資料;這些替代方案可能限制研究人員研究資料、重現結果或修改元件的方式。
- 用於具身任務的動作或視覺語言模型,搭配獨立工具:而非專用動作推理基礎模型,有些團隊可能結合通用視覺語言模型與下游機器人控制堆疊;這在工作流程上不同,因為推理與動作可能由獨立元件處理。
- 其他開源機器人操作資料集:若主要需求是資料而非特定模型架構,研究人員可使用開源操作資料集,並以自家模型/骨幹選擇訓練策略。
- 具身推理基準與訓練管線:另一方法是聚焦於具身推理任務的基準驅動訓練/評估管線;這與特定開源基礎模型發佈不同,強調評估方法與實驗設定。
替代品
AakarDev AI
AakarDev AI 是一個強大的平台,通過無縫的向量資料庫整合簡化 AI 應用程式的開發,實現快速部署和可擴展性。
BookAI.chat
BookAI允許您透過簡單提供書名和作者與您的書籍進行AI聊天。
skills-janitor
skills-janitor 可審核並追蹤 Claude Code 技能用量,與 9 個聚焦指令做比較,幫你找重複與缺失資訊,無需依賴。
FeelFish
FeelFish AI小說寫作代理 PC 端用戶端,協助規劃角色與世界觀、生成與編輯章節,並以內容脈絡延續劇情一致性。
BenchSpan
BenchSpan 以並行方式執行 AI agent 基準測試,記錄分數與失敗,並以 commit 標記可重現結果,降低失敗重跑的 token 浪費。
ChatBA
ChatBA 用聊天式工作流程,從你的輸入快速生成簡報內容,輕鬆把想法轉成投影片套件。