MolmoAct 2

MolmoAct 2 是用于3D动作推理的全开源机器人基础模型，配套 MolmoAct 2-Bimanual YAM 数据集，支持可复现双手操作研究。

大语言模型

MolmoAct 2

MolmoAct 2 是什么？

MolmoAct 2 是一个全开源机器人基础模型，专为支持真实世界环境中的机器人动作推理而设计。它专注于需要在行动前对环境进行 3D 推理的任务，旨在减少常见操作场景中每任务微调的需求。

除了模型外，此次发布还包括 MolmoAct 2-Bimanual YAM 数据集和带有新型适配器架构的更新 VLA 管道。这些组件共同面向希望研究、复现并扩展操作及其他具身推理基准动作推理的研究人员。

主要特性

行动前 3D 动作推理模型 (ARM)：MolmoAct 2 在采取行动前对环境进行 3D 推理，针对提升具身推理评估任务性能。
针对真实世界部署场景设计：该模型专为真实世界环境构建，而非仅用于基准验证。
升级开源推理骨干 (Molmo 2-ER)：MolmoAct 2 基于 Molmo 2-ER，这是 Molmo 2 的具身推理专用变体，进一步在额外具身推理示例（包括图像和视频空间问答）上训练。
比前代推理更快：发布报告 MolmoAct 2 的推理速度比前代 快达 37 倍。
开源研究包：发布提供模型权重、数据集以及所述自适应推理方法，用于提升推理深度和可解释性。
用于操作研究的大型双手数据集：MolmoAct 2-Bimanual YAM 数据集是最大的开源双手桌面操作数据集，包含 超过 720 小时 的训练演示。

如何使用 MolmoAct 2

获取开源发布资源：下载发布中为研究人员提供的 MolmoAct 2 模型权重及相关资源。
使用更新 VLA 管道：从使用所述 新型适配器架构 的更新管道开始。
使用提供的数据集进行训练/评估：针对双手桌面操作实验，使用 MolmoAct 2-Bimanual YAM；针对其他具身推理实验，按照发布中围绕自适应推理方法的研发指导。
应用自适应 3D 推理：使用发布中描述的自适应推理方法，在性能提升处鼓励更深入的 3D 推理。

使用场景

研究操作动作推理：研究人员可调查 3D 动作推理如何影响桌面设置中接触、抓取和操作物体的任务性能。
跨具身推理任务基准复现：发布报告在 13 个具身推理基准（例如指向、多图像推理、自我-外部对应、视频空间推理）上的评估，支持比较研究。
双手桌面研究：从事双臂操作的团队可使用 MolmoAct 2-Bimanual YAM 数据集（超过 720 小时演示）来训练和评估双手策略。
开源模型架构研究：开源基础模型设置允许研究人员检查和修改模型组件（例如推理骨干和适配器架构），而非依赖闭源系统。
开发减少每任务微调的系统：由于 MolmoAct 2 被描述为开箱即用处理各种真实世界任务，可作为降低定制成本工作的起点。

常见问题

MolmoAct 2 是用于研究还是生产部署？ 该发布明确定位为供研究人员学习和构建，同时描述 MolmoAct 2 适用于真实世界环境部署。
包含哪些双手操作数据集？ 该发布包含 MolmoAct 2-Bimanual YAM，这是最大的开源双手桌面操作数据集，包含 超过 720 小时 的训练演示。
MolmoAct 2 与早期 MolmoAct 有何不同？ 该更新包含更强的推理骨干（Molmo 2-ER），发布报告 MolmoAct 2 比前代 快至 37 倍。
该模型需要针对任务微调吗？ 该发布指出，MolmoAct 2 开箱即用即可处理各种真实世界任务，无需针对任务微调。
发布中提到的自适应推理方法是什么？ 该页面指出，该发布包含自适应推理方法，旨在帮助 MolmoAct 2 在 3D 中更深入推理，以提升性能和可解释性。

替代方案

闭源机器人基础模型：一些团队发布权重但较少发布数据；这些替代方案可能限制研究人员研究数据、复现结果或修改组件。
用于具身任务的动作或视觉语言模型，搭配独立工具：一些团队可能将通用视觉语言模型与下游机器人控制栈结合，而非专用动作推理基础模型；这在工作流程上不同，因为推理和动作可能由独立组件处理。
其他开源机器人操作数据集：如果主要需求是数据而非特定模型架构，研究人员可以使用开源操作数据集，并使用自己的模型/骨干训练策略。
具身推理基准和训练管道：另一种方法是专注于具身推理任务的基准驱动训练/评估管道；这与特定开源基础模型发布不同，强调评估方法和实验设置。

替代品

AakarDev AI

AakarDev AI 是一个强大的平台，通过无缝的向量数据库集成简化 AI 应用程序的开发，实现快速部署和可扩展性。

BookAI.chat

BookAI允许您通过简单提供书名和作者与您的书籍进行AI聊天。

skills-janitor

skills-janitor 插件用于审计和跟踪 Claude Code 技能使用情况，并与九个聚焦的斜杠命令进行对比，零依赖。

FeelFish

FeelFish AI 小说写作助手PC客户端，支持人物与设定规划、章节生成与编辑，并凭上下文一致性续写剧情。

BenchSpan

BenchSpan 支持 AI agent 基准并行运行，自动记录得分与失败并整理运行历史；按提交标签复现，减少失败重跑浪费的 token。

ChatBA

ChatBA 是用于生成幻灯片的生成式 AI，可用聊天式流程快速根据你的输入创建演示内容与幻灯片。