UStackUStack
MolmoAct 2 icon

MolmoAct 2

MolmoAct 2 ist ein vollständig offenes Robotics-Foundation-Model für 3D-Action-Reasoning – mit MolmoAct 2-Bimanual YAM Dataset zur Reproduzierbarkeit.

MolmoAct 2

Was ist MolmoAct 2?

MolmoAct 2 ist ein vollständig offenes Robotics-Foundation-Model, das für die Unterstützung von Robotik-Action-Reasoning in realen Umgebungen entwickelt wurde. Es konzentriert sich auf Aufgaben, die ein 3D-Verständnis der Umgebung vor der Ausführung erfordern, um das Per-Task-Fine-Tuning in gängigen Manipulationsszenarien zu reduzieren.

Zusätzlich zum Model umfasst die Veröffentlichung das MolmoAct 2-Bimanual YAM Dataset und eine aktualisierte VLA-Pipeline mit einer neuartigen Adapter-Architektur. Diese Komponenten sind für Forscher gedacht, die Action-Reasoning für Manipulation und andere embodied-reasoning-Benchmarks untersuchen, reproduzieren und erweitern möchten.

Wichtige Merkmale

  • Action-Reasoning-Model (ARM) für 3D vor der Ausführung: MolmoAct 2 versteht seine Umgebung in 3D, bevor es handelt, und zielt auf bessere Leistung bei embodied-reasoning-Evaluierungsaufgaben ab.
  • Für reale Einsatzszenarien konzipiert: Das Model ist für reale Umgebungen entwickelt, nicht nur für Benchmark-Validierung.
  • Verbessertes offenes Reasoning-Backbone (Molmo 2-ER): MolmoAct 2 basiert auf Molmo 2-ER, einer spezialisierten embodied-reasoning-Variante von Molmo 2, die mit zusätzlichen embodied-reasoning-Beispielen (einschließlich bild- und videobasierter räumlicher Frage-Antwort) weitertrainiert wurde.
  • Schnellere Inferenz als der Vorgänger: Die Veröffentlichung berichtet, dass MolmoAct 2 bis zu 37× schneller als der Vorgänger läuft.
  • Offenes Forschungspaket: Die Veröffentlichung stellt Modellgewichte, Datasets und den beschriebenen adaptiven Reasoning-Ansatz zur Verfügung, um Reasoning-Tiefe und Interpretierbarkeit zu steigern.
  • Großes bimanuelles Dataset für Manipulationsforschung: Das MolmoAct 2-Bimanual YAM Dataset ist das größte quelloffene bimanuelle Tischmanipulations-Dataset mit über 720 Stunden Trainingsdemonstrationen.

So verwenden Sie MolmoAct 2

  1. Offene Release-Artefakte herunterladen: Laden Sie die MolmoAct 2-Modellgewichte und zugehörigen Assets aus der Veröffentlichung für Forscher herunter.
  2. Aktualisierte VLA-Pipeline nutzen: Starten Sie mit der aktualisierten Pipeline, die die beschriebene neuartige Adapter-Architektur verwendet.
  3. Mit den bereitgestellten Datasets trainieren/evaluieren: Für bimanuelle Tischmanipulations-Experimente nutzen Sie MolmoAct 2-Bimanual YAM; für andere embodied-reasoning-Experimente folgen Sie den forschungsorientierten Anleitungen der Veröffentlichung zum adaptiven Reasoning-Ansatz.
  4. Adaptives 3D-Reasoning anwenden: Verwenden Sie die mit der Veröffentlichung beschriebene adaptive Reasoning-Methode, um tiefere 3D-Reasoning zu fördern, wo sie die Leistung verbessert.

Anwendungsfälle

  • Untersuchung von Action-Reasoning für Manipulation: Forscher können prüfen, wie 3D-Action-Reasoning die Leistung bei Aufgaben mit Kontakt, Greifen und Manipulieren von Objekten in Tischsetups beeinflusst.
  • Benchmark-Reproduktion bei embodied-reasoning-Aufgaben: Die Veröffentlichung berichtet Evaluierungen über 13 embodied-reasoning-Benchmarks (z. B. Pointing, Multi-Image-Reasoning, Ego-Exo-Korrespondenz, Video-Räumliches-Reasoning) für vergleichende Studien.
  • Bimanuelle Tischforschung: Teams bei Zweihand-Manipulation können das MolmoAct 2-Bimanual YAM Dataset (über 720 Stunden Demonstrationen) zum Trainieren und Evaluieren bimanualer Policies nutzen.
  • Forschung zu offenen Modellarchitekturen: Die offene Foundation-Model-Einstellung erlaubt Forschern, Modellkomponenten (z. B. Reasoning-Backbone und Adapter-Architektur) zu untersuchen und zu modifizieren, statt auf geschlossene Systeme angewiesen zu sein.
  • Entwicklung von Systemen mit reduziertem Per-Task-Fine-Tuning: Da MolmoAct 2 verschiedene reale Aufgaben out-of-the-box bewältigt, eignet es sich als Ausgangspunkt, um Anpassungskosten zu senken.

FAQ

  • Ist MolmoAct 2 für Forschung oder Produktionsumgebungen gedacht?
    Die Veröffentlichung wird explizit als für Forscher positioniert, um darauf aufzubauen und zu studieren, beschreibt MolmoAct 2 jedoch auch als für den Einsatz in realen Umgebungen gebaut.

  • Welches Dataset ist für bimanuelle Manipulation enthalten?
    Die Veröffentlichung enthält MolmoAct 2-Bimanual YAM, das als größtes Open-Source-Dataset für bimanuelle Tischmanipulation beschrieben wird, mit über 720 Stunden Trainingsdemonstrationen.

  • Was unterscheidet MolmoAct 2 vom früheren MolmoAct?
    Das Update umfasst ein stärkeres Reasoning-Backbone (Molmo 2-ER), und die Veröffentlichung berichtet, dass MolmoAct 2 bis zu 37× schneller als der Vorgänger läuft.

  • Erfordert das Modell pro-Aufgabe Fine-Tuning?
    Die Veröffentlichung gibt an, dass MolmoAct 2 verschiedene reale Aufgaben out-of-the-box ohne pro-Aufgabe Fine-Tuning bewältigen kann.

  • Was ist der adaptive Reasoning-Ansatz aus der Veröffentlichung?
    Die Seite gibt an, dass die Veröffentlichung einen adaptiven Reasoning-Ansatz enthält, der MolmoAct 2 helfen soll, tiefer in 3D zu reasonen, um Leistung und Interpretierbarkeit zu steigern.

Alternativen

  • Geschlossene Robotics-Foundation-Modelle: Einige Teams veröffentlichen Weights, aber weniger Daten; diese Alternativen können einschränken, wie Forscher Daten studieren, Ergebnisse reproduzieren oder Komponenten modifizieren können.
  • Action- oder Vision-Language-Modelle für embodied Tasks mit separater Tooling: Statt eines dedizierten Action-Reasoning-Foundation-Modells kombinieren einige Teams general-purpose Vision-Language-Modelle mit downstream Robotic-Control-Stacks; dies unterscheidet sich im Workflow, da Reasoning und Action von separaten Komponenten gehandhabt werden können.
  • Andere offene Robotics-Datasets für Manipulation: Wenn der primäre Bedarf Daten statt einer bestimmten Modellarchitektur sind, können Forscher offene Manipulation-Datasets nutzen und Policies mit eigenen Model/Backbone-Wahlen trainieren.
  • Embodied-Reasoning-Benchmarks und Training-Pipelines: Ein anderer Ansatz ist der Fokus auf benchmark-getriebene Training/Evaluation-Pipelines für embodied-Reasoning-Tasks; dies unterscheidet sich durch Betonung von Evaluationsmethodik und Experimentier-Setup statt einer spezifischen offenen Foundation-Model-Veröffentlichung.