MolmoAct 2
MolmoAct 2 è un robotics foundation model open per il reasoning di azioni 3D. Con dataset MolmoAct 2-Bimanual YAM per ricerche bimanuali riproducibili.
Cos'è MolmoAct 2?
MolmoAct 2 è un robotics foundation model completamente open progettato per supportare il reasoning di azioni robotiche in ambienti reali. Si concentra su compiti che richiedono al sistema di ragionare sull'ambiente in 3D prima di agire, con l'obiettivo di ridurre la necessità di fine-tuning per-task in scenari di manipolazione comuni.
Oltre al modello, il rilascio include il dataset MolmoAct 2-Bimanual YAM e una pipeline VLA aggiornata con una nuova architettura adapter. Insieme, sono pensati per ricercatori che vogliono studiare, riprodurre e costruire su reasoning di azioni per manipolazione e altri benchmark di embodied reasoning.
Caratteristiche Principali
- Action Reasoning Model (ARM) per 3D prima di agire: MolmoAct 2 ragiona sul suo ambiente in 3D prima di agire, puntando a migliori performance su compiti di valutazione embodied-reasoning.
- Progettato per scenari di deployment reali: Il modello è presentato come costruito per ambienti reali, non solo per validazione su benchmark.
- Backbone di reasoning open potenziato (Molmo 2-ER): MolmoAct 2 si basa su Molmo 2-ER, una variante specializzata in embodied-reasoning di Molmo 2, addestrata ulteriormente su esempi aggiuntivi di embodied-reasoning (inclusi spatial question answering basati su immagini e video).
- Inferenza più veloce del predecessore: Il rilascio riporta che MolmoAct 2 è fino a 37× più veloce del predecessore.
- Pacchetto di ricerca open: Il rilascio rende disponibili i pesi del modello, i dataset e l'approccio di reasoning adattivo descritto per potenziare profondità e interpretabilità del reasoning.
- Ampio dataset bimanuale per ricerca su manipolazione: Il dataset MolmoAct 2-Bimanual YAM è riportato come il più grande dataset open-source di manipolazione tabletop bimanuale, con oltre 720 ore di dimostrazioni di training.
Come Usare MolmoAct 2
- Ottieni gli artefatti del rilascio open: Scarica i pesi del modello MolmoAct 2 e gli asset correlati forniti nel rilascio per ricercatori.
- Usa la pipeline VLA aggiornata: Inizia con la pipeline aggiornata che utilizza la novel adapter architecture descritta.
- Addestra/valuta usando i dataset forniti: Per esperimenti di manipolazione tabletop bimanuale, usa MolmoAct 2-Bimanual YAM; per altri esperimenti di embodied-reasoning, segui le indicazioni research-focused del rilascio sull'approccio di reasoning adattivo.
- Applica reasoning 3D adattivo: Usa il metodo di reasoning adattivo descritto nel rilascio per incoraggiare un reasoning 3D più profondo dove migliora le performance.
Casi d'Uso
- Studio del reasoning di azioni per manipolazione: I ricercatori possono indagare come il reasoning di azioni 3D influenzi le performance su compiti che coinvolgono contatto, grasping e manipolazione di oggetti in setup tabletop.
- Riproduzione di benchmark su compiti embodied-reasoning: Il rilascio riporta valutazioni su 13 benchmark embodied-reasoning (es. pointing, multi-image reasoning, ego-exo correspondence, video spatial reasoning), abilitando studi comparativi.
- Ricerca bimanuale tabletop: Team che lavorano su manipolazione a due bracci possono usare il dataset MolmoAct 2-Bimanual YAM (oltre 720 ore di dimostrazioni) per addestrare e valutare policy bimanuali.
- Ricerca su architetture di modelli open: L'impostazione open foundation-model permette ai ricercatori di esaminare e modificare componenti del modello (es. backbone di reasoning e adapter architecture) invece di affidarsi a sistemi chiusi.
- Sviluppo di sistemi che riducono il fine-tuning per-task: Poiché MolmoAct 2 è descritto come in grado di gestire vari compiti reali out-of-the-box, può essere usato come punto di partenza per lavori mirati a ridurre i costi di customizzazione.
FAQ
-
MolmoAct 2 è destinato alla ricerca o a deployment in produzione? Il rilascio è esplicitamente posizionato come disponibile per i ricercatori per studiarlo e costruirci sopra, descrivendo inoltre MolmoAct 2 come costruito per essere deployato in ambienti reali.
-
Quale dataset è incluso per la manipolazione bimanuale? Il rilascio include MolmoAct 2-Bimanual YAM, descritto come il più grande dataset open-source di manipolazione bimanuale da tavolo, con oltre 720 ore di dimostrazioni di training.
-
Cosa distingue MolmoAct 2 dal precedente MolmoAct? L'aggiornamento include un backbone di reasoning più potente (Molmo 2-ER), e il rilascio riporta che MolmoAct 2 gira fino a 37× più veloce del predecessore.
-
Il modello richiede fine-tuning per task specifici? Il rilascio afferma che MolmoAct 2 può gestire vari task reali out-of-the-box senza fine-tuning per task specifici.
-
Cos'è l'approccio di adaptive reasoning menzionato nel rilascio? La pagina afferma che il rilascio include un approccio di adaptive reasoning inteso ad aiutare MolmoAct 2 a ragionare più profondamente in 3D per migliorare performance e interpretabilità.
Alternative
- Modelli closed di robotics foundation: Alcune squadre rilasciano pesi ma meno rilasciano dati; queste alternative possono limitare come i ricercatori possono studiare i dati, riprodurre risultati o modificare componenti.
- Modelli action o vision-language usati per task embodied con tooling separato: Invece di un foundation model dedicato al action-reasoning, alcune squadre combinano vision-language model general-purpose con stack di controllo robotico downstream; questo differisce nel workflow perché reasoning e action possono essere gestiti da componenti separati.
- Altri dataset open di robotics per manipolazione: Se il bisogno primario è data piuttosto che una particolare architettura di modello, i ricercatori possono usare dataset open di manipolazione e addestrare policy usando le loro scelte di modello/backbone.
- Benchmark embodied reasoning e pipeline di training: Un altro approccio è focalizzarsi su pipeline di training/evaluation benchmark-driven per task embodied-reasoning; questo differisce enfatizzando metodologia di evaluation e setup di sperimentazione rispetto a un rilascio specifico di open foundation model.
Alternative
AakarDev AI
AakarDev AI è una piattaforma potente che semplifica lo sviluppo di applicazioni AI con integrazione fluida dei database vettoriali, consentendo un rapido deployment e scalabilità.
BookAI.chat
BookAI ti consente di chattare con i tuoi libri utilizzando l'IA semplicemente fornendo il titolo e l'autore.
skills-janitor
skills-janitor esegue audit, traccia l’uso e confronta le tue skill per Claude Code con 9 azioni slash mirate, senza dipendenze.
FeelFish
FeelFish AI Novel Writing Agent è un client PC per autori: pianifica personaggi e ambienti, genera e modifica capitoli e continua trame con coerenza.
BenchSpan
BenchSpan esegue benchmark per AI agent in parallelo, salva punteggi e errori in una run history ordinata e replica risultati con commit-tag.
ChatBA
ChatBA è una generative AI per creare slide deck con un workflow in stile chat: genera rapidamente contenuti per la tua presentazione.