MolmoAct 2란 무엇인가요?
MolmoAct 2는 실제 환경에서 로봇 액션 추론을 지원하도록 설계된 완전 오픈 로보틱스 파운데이션 모델입니다. 시스템이 행동하기 전에 3D 환경에 대해 추론해야 하는 작업에 중점을 두며, 일반적인 조작 설정에서 작업별 미세 조정 필요성을 줄이는 것을 목표로 합니다.
모델 외에도 출시에는 MolmoAct 2-Bimanual YAM 데이터셋과 새로운 어댑터 아키텍처를 사용한 업데이트된 VLA 파이프라인이 포함됩니다. 이는 조작 및 기타 embodied-reasoning 벤치마크에 대한 액션 추론을 연구, 재현, 확장하고자 하는 연구자를 위해 제공됩니다.
주요 기능
- 행동 전에 3D를 위한 액션 추론 모델 (ARM): MolmoAct 2는 행동 전에 3D 환경에 대해 추론하며, embodied-reasoning 평가 작업에서 향상된 성능을 목표로 합니다.
- 실제 배포 시나리오에 최적화: 모델은 벤치마크 검증뿐만 아니라 실제 환경을 위해 구축된 것으로 제시됩니다.
- 업그레이드된 오픈 추론 백본 (Molmo 2-ER): MolmoAct 2는 Molmo 2-ER을 기반으로 하며, 이는 Molmo 2의 embodied-reasoning 특화 변형으로 추가 embodied-reasoning 예제(이미지 및 비디오 기반 공간 질의 응답 포함)로 추가 훈련되었습니다.
- 이전 버전보다 빠른 추론: 출시 보고서에 따르면 MolmoAct 2는 이전 버전보다 최대 37× 빠르게 실행됩니다.
- 오픈 연구 패키지: 출시에는 모델 가중치, 데이터셋, 추론 깊이와 해석 가능성을 높이는 설명된 적응 추론 접근 방식이 제공됩니다.
- 조작 연구를 위한 대규모 양손 데이터셋: MolmoAct 2-Bimanual YAM 데이터셋은 720시간 이상의 훈련 데모를 포함한 가장 큰 오픈소스 양손 테이블탑 조작 데이터셋으로 보고됩니다.
MolmoAct 2 사용 방법
- 오픈 출시 아티팩트 가져오기: 연구자를 위해 제공된 MolmoAct 2 모델 가중치 및 관련 자산을 다운로드하세요.
- 업데이트된 VLA 파이프라인 사용: 설명된 새로운 어댑터 아키텍처를 사용하는 업데이트된 파이프라인부터 시작하세요.
- 제공된 데이터셋으로 훈련/평가: 양손 테이블탑 조작 실험의 경우 MolmoAct 2-Bimanual YAM을 사용하세요. 기타 embodied-reasoning 실험의 경우 출시의 적응 추론 접근 방식에 대한 연구 중심 지침을 따르세요.
- 적응형 3D 추론 적용: 성능 향상을 위해 출시와 함께 설명된 적응 추론 방법을 사용하여 더 깊은 3D 추론을 장려하세요.
사용 사례
- 조작을 위한 액션 추론 연구: 연구자들은 테이블탑 설정에서 물체 접촉, grasping, 조작 작업에서 3D 액션 추론이 성능에 미치는 영향을 조사할 수 있습니다.
- embodied-reasoning 작업 간 벤치마크 재현: 출시 보고서에 따르면 13개 embodied-reasoning 벤치마크(예: pointing, multi-image reasoning, ego-exo correspondence, video spatial reasoning)에서 평가되어 비교 연구를 가능하게 합니다.
- 양손 테이블탑 연구: 두 팔 조작을 연구하는 팀은 MolmoAct 2-Bimanual YAM 데이터셋(720시간 이상의 데모)을 사용하여 양손 정책을 훈련 및 평가할 수 있습니다.
- 오픈 모델 아키텍처 연구: 오픈 파운데이션 모델 설정으로 연구자들은 폐쇄 시스템에 의존하지 않고 모델 구성 요소(예: 추론 백본 및 어댑터 아키텍처)를 검사하고 수정할 수 있습니다.
- 작업별 미세 조정 감소 시스템 개발: MolmoAct 2가 다양한 실제 작업을 즉시 처리할 수 있도록 설명되었으므로, 맞춤 비용을 낮추는 작업의 시작점으로 사용할 수 있습니다.
자주 묻는 질문
-
MolmoAct 2는 연구용인가요, 프로덕션 배포용인가요? 출시 버전은 연구자들이 연구하고 기반으로 구축할 수 있도록 명시적으로 위치づけ되었으며, 동시에 MolmoAct 2가 실제 환경에 배포할 수 있도록 구축되었다고 설명합니다.
-
양손 조작을 위한 데이터셋은 무엇인가요? 출시 버전에는 MolmoAct 2-Bimanual YAM이 포함되어 있으며, 이는 720시간 이상의 훈련 데모를 포함한 가장 큰 오픈소스 양손 테이블탑 조작 데이터셋으로 설명됩니다.
-
MolmoAct 2는 이전 MolmoAct와 어떻게 다른가요? 업데이트에는 더 강력한 추론 백본(Molmo 2-ER)이 포함되어 있으며, 출시 보고서에 따르면 MolmoAct 2는 이전 버전보다 최대 37× 빠르게 실행됩니다.
-
모델은 작업별 미세 조정이 필요한가요? 출시 버전은 MolmoAct 2가 작업별 미세 조정 없이 다양한 실제 작업을 즉시 처리할 수 있다고 명시합니다.
-
출시에서 언급된 적응형 추론 접근법이란 무엇인가요? 페이지에 따르면 출시 버전에는 MolmoAct 2가 3D에서 더 깊이 추론하여 성능과 해석 가능성을 높이기 위한 적응형 추론 접근법이 포함되어 있습니다.
대안
- 폐쇄형 로보틱스 파운데이션 모델: 일부 팀은 가중치를 출시하지만 데이터는 적게 출시합니다; 이러한 대안은 연구자들이 데이터를 연구하거나 결과를 재현하거나 구성 요소를 수정하는 데 제한을 줄 수 있습니다.
- 별도 도구와 함께 구현 작업에 사용되는 액션 또는 비전-언어 모델: 전용 액션-추론 파운데이션 모델 대신 일부 팀은 범용 비전-언어 모델을 다운스트림 로봇 제어 스택과 결합할 수 있습니다; 이는 추론과 액션이 별도 구성 요소로 처리되기 때문에 워크플로가 다릅니다.
- 조작을 위한 기타 오픈 로보틱스 데이터셋: 특정 모델 아키텍처가 아닌 데이터가 주요 필요라면 연구자들은 오픈 조작 데이터셋을 사용하고 자신의 모델/백본 선택으로 정책을 훈련할 수 있습니다.
- 구현 추론 벤치마크 및 훈련 파이프라인: 또 다른 접근은 구현-추론 작업을 위한 벤치마크 중심 훈련/평가 파이프라인에 초점을 맞추는 것입니다; 이는 특정 오픈 파운데이션 모델 출시보다 평가 방법론과 실험 설정을 강조합니다.
대안
AakarDev AI
AakarDev AI는 원활한 벡터 데이터베이스 통합을 통해 AI 애플리케이션 개발을 간소화하는 강력한 플랫폼으로, 신속한 배포와 확장성을 가능하게 합니다.
BookAI.chat
BookAI는 제목과 저자를 제공하기만 하면 AI를 사용하여 책과 대화할 수 있게 해줍니다.
skills-janitor
skills-janitor로 Claude Code 기술을 감사하고 사용량을 추적하며, 9가지 슬래시 커맨드로 자신의 능력을 비교하세요. 의존성 0.
FeelFish
FeelFish AI 소설 집필 에이전트 PC 클라이언트로 등장인물·배경을 기획하고 장을 생성·편집하며, 맥락 일관성으로 줄거리를 이어가세요.
BenchSpan
BenchSpan은 AI 에이전트 벤치마크를 병렬 실행하고 점수·실패를 실행 이력으로 정리하며, 커밋 태그로 재현 가능한 결과 비교를 돕습니다.
ChatBA
ChatBA는 채팅형 워크플로로 입력을 바탕으로 슬라이드 덱 콘텐츠를 빠르게 생성하는 생성형 AI입니다.