MolmoAct 2
MolmoAct 2 est un modèle de fondation robotique open source pour le raisonnement d’action 3D, avec le dataset MolmoAct 2-Bimanual YAM.
Qu'est-ce que MolmoAct 2 ?
MolmoAct 2 est un modèle de fondation robotique entièrement open source conçu pour supporter le raisonnement d'actions robotiques dans des environnements réels. Il se concentre sur des tâches nécessitant un raisonnement sur l'environnement en 3D avant d'agir, visant à réduire le besoin d'ajustements fins par tâche dans des scénarios de manipulation courants.
En plus du modèle, la sortie inclut le dataset MolmoAct 2-Bimanual YAM et un pipeline VLA mis à jour avec une architecture d'adaptateur novatrice. Ensemble, ils sont destinés aux chercheurs souhaitant étudier, reproduire et s'appuyer sur le raisonnement d'actions pour la manipulation et d'autres benchmarks d'incarnation.
Fonctionnalités clés
- Modèle de raisonnement d'action (ARM) en 3D avant d'agir : MolmoAct 2 raisonne sur son environnement en 3D avant d'agir, visant une meilleure performance sur les tâches d'évaluation d'incarnation.
- Conçu pour des scénarios de déploiement en conditions réelles : Le modèle est présenté comme adapté aux environnements réels, et pas seulement à la validation de benchmarks.
- Backbone de raisonnement open source amélioré (Molmo 2-ER) : MolmoAct 2 est basé sur Molmo 2-ER, une variante spécialisée en raisonnement incarné de Molmo 2, entraînée davantage sur des exemples de raisonnement incarné (incluant la réponse à questions spatiales basées sur images et vidéos).
- Inférence plus rapide que le prédécesseur : La sortie rapporte que MolmoAct 2 s'exécute jusqu'à 37× plus rapidement que son prédécesseur.
- Package de recherche open source : La sortie met à disposition les poids du modèle, les datasets et l'approche de raisonnement adaptatif décrite pour booster la profondeur et l'interprétabilité du raisonnement.
- Grand dataset bimanuel pour la recherche en manipulation : Le dataset MolmoAct 2-Bimanual YAM est présenté comme le plus grand dataset open source de manipulation bimanuelle sur table, avec plus de 720 heures de démonstrations d'entraînement.
Comment utiliser MolmoAct 2
- Obtenir les artefacts de la sortie open source : Téléchargez les poids du modèle MolmoAct 2 et les ressources associées fournies dans la sortie pour les chercheurs.
- Utiliser le pipeline VLA mis à jour : Commencez avec le pipeline mis à jour qui utilise l'architecture d'adaptateur novatrice décrite.
- Entraîner/évaluer avec les datasets fournis : Pour des expériences de manipulation bimanuelle sur table, utilisez MolmoAct 2-Bimanual YAM ; pour d'autres expériences de raisonnement incarné, suivez les conseils orientés recherche de la sortie autour de l'approche de raisonnement adaptatif.
- Appliquer le raisonnement 3D adaptatif : Utilisez la méthode de raisonnement adaptatif décrite avec la sortie pour encourager un raisonnement 3D plus profond là où cela améliore les performances.
Cas d'usage
- Étudier le raisonnement d'action pour la manipulation : Les chercheurs peuvent examiner comment le raisonnement d'action 3D impacte les performances sur des tâches impliquant contact, préhension et manipulation d'objets en setups sur table.
- Reproduction de benchmarks sur tâches de raisonnement incarné : La sortie rapporte des évaluations sur 13 benchmarks de raisonnement incarné (ex. : pointage, raisonnement multi-images, correspondance ego-exo, raisonnement spatial vidéo), permettant des études comparatives.
- Recherche bimanuelle sur table : Les équipes travaillant sur la manipulation à deux bras peuvent utiliser le dataset MolmoAct 2-Bimanual YAM (plus de 720 heures de démonstrations) pour entraîner et évaluer des politiques bimanuelles.
- Recherche sur architectures de modèles open source : Le cadre de modèle de fondation open source permet aux chercheurs d'examiner et modifier les composants du modèle (ex. : backbone de raisonnement et architecture d'adaptateur) plutôt que de dépendre de systèmes fermés.
- Développer des systèmes réduisant l'ajustement fin par tâche : Comme MolmoAct 2 est décrit comme gérant diverses tâches réelles hors de la boîte, il peut servir de point de départ pour des travaux visant à baisser les coûts de personnalisation.
FAQ
-
MolmoAct 2 est-il destiné à la recherche ou aux déploiements en production ? La sortie est explicitement positionnée comme disponible pour les chercheurs afin d’étudier et de s’appuyer dessus, tout en décrivant MolmoAct 2 comme conçu pour être déployé dans des environnements réels.
-
Quel dataset est inclus pour la manipulation bimanuelle ? La sortie inclut MolmoAct 2-Bimanual YAM, décrit comme le plus grand dataset open source de manipulation bimanuelle sur table, avec plus de 720 heures de démonstrations d’entraînement.
-
Qu’est-ce qui distingue MolmoAct 2 de l’ancien MolmoAct ? La mise à jour inclut un backbone de raisonnement plus puissant (Molmo 2-ER), et la sortie indique que MolmoAct 2 s’exécute jusqu’à 37× plus rapidement que son prédécesseur.
-
Le modèle nécessite-t-il un fine-tuning par tâche ? La sortie indique que MolmoAct 2 peut gérer diverses tâches réelles prêtes à l’emploi sans fine-tuning par tâche.
-
Quelle est l’approche de raisonnement adaptatif mentionnée dans la sortie ? La page indique que la sortie inclut une approche de raisonnement adaptatif destinée à aider MolmoAct 2 à raisonner plus profondément en 3D pour améliorer les performances et l’interprétabilité.
Alternatives
- Modèles de fondation robotique fermés : Certaines équipes publient les poids mais moins les données ; ces alternatives peuvent limiter la capacité des chercheurs à étudier les données, reproduire les résultats ou modifier les composants.
- Modèles d’action ou vision-langage utilisés pour des tâches incarnées avec des outils séparés : Au lieu d’un modèle de fondation dédié au raisonnement d’action, certaines équipes combinent des modèles vision-langage généralistes avec des stacks de contrôle robotique en aval ; cela diffère au niveau du workflow car le raisonnement et l’action peuvent être gérés par des composants séparés.
- Autres datasets robotiques open source pour la manipulation : Si le besoin principal est les données plutôt qu’une architecture de modèle particulière, les chercheurs peuvent utiliser des datasets open source de manipulation et entraîner des politiques avec leurs propres choix de modèle/backbone.
- Benchmarks de raisonnement incarné et pipelines d’entraînement : Une autre approche consiste à se concentrer sur des pipelines d’entraînement/évaluation pilotés par benchmarks pour des tâches de raisonnement incarné ; cela diffère en mettant l’accent sur la méthodologie d’évaluation et la configuration expérimentale plutôt que sur une sortie spécifique d’un modèle de fondation open source.
Alternatives
AakarDev AI
AakarDev AI est une plateforme puissante qui simplifie le développement d'applications d'IA avec une intégration fluide des bases de données vectorielles, permettant un déploiement rapide et une évolutivité.
BookAI.chat
BookAI vous permet de discuter avec vos livres en utilisant l'IA en fournissant simplement le titre et l'auteur.
skills-janitor
skills-janitor audite, suit l’usage et compare vos compétences Claude Code avec neuf actions d’analyse par commandes slash, sans dépendances.
FeelFish
FeelFish AI Novel Writing Agent est un client PC pour auteurs : planifiez personnages et décors, générez et modifiez des chapitres, continuez avec cohérence.
BenchSpan
BenchSpan exécute des benchmarks d’agents IA en parallèle, consigne scores et échecs dans un historique, et facilite la reproductibilité via des exécutions taguées par commit.
ChatBA
ChatBA, l’IA générative pour créer des présentations : utilisez un workflow en chat pour générer rapidement le contenu de vos slides.