MolmoAct 2
MolmoAct 2 ist ein vollständig offenes Robotics-Foundation-Model für 3D-Action-Reasoning – mit MolmoAct 2-Bimanual YAM Dataset zur Reproduzierbarkeit.
Was ist MolmoAct 2?
MolmoAct 2 ist ein vollständig offenes Robotics-Foundation-Model, das für die Unterstützung von Robotik-Action-Reasoning in realen Umgebungen entwickelt wurde. Es konzentriert sich auf Aufgaben, die ein 3D-Verständnis der Umgebung vor der Ausführung erfordern, um das Per-Task-Fine-Tuning in gängigen Manipulationsszenarien zu reduzieren.
Zusätzlich zum Model umfasst die Veröffentlichung das MolmoAct 2-Bimanual YAM Dataset und eine aktualisierte VLA-Pipeline mit einer neuartigen Adapter-Architektur. Diese Komponenten sind für Forscher gedacht, die Action-Reasoning für Manipulation und andere embodied-reasoning-Benchmarks untersuchen, reproduzieren und erweitern möchten.
Wichtige Merkmale
- Action-Reasoning-Model (ARM) für 3D vor der Ausführung: MolmoAct 2 versteht seine Umgebung in 3D, bevor es handelt, und zielt auf bessere Leistung bei embodied-reasoning-Evaluierungsaufgaben ab.
- Für reale Einsatzszenarien konzipiert: Das Model ist für reale Umgebungen entwickelt, nicht nur für Benchmark-Validierung.
- Verbessertes offenes Reasoning-Backbone (Molmo 2-ER): MolmoAct 2 basiert auf Molmo 2-ER, einer spezialisierten embodied-reasoning-Variante von Molmo 2, die mit zusätzlichen embodied-reasoning-Beispielen (einschließlich bild- und videobasierter räumlicher Frage-Antwort) weitertrainiert wurde.
- Schnellere Inferenz als der Vorgänger: Die Veröffentlichung berichtet, dass MolmoAct 2 bis zu 37× schneller als der Vorgänger läuft.
- Offenes Forschungspaket: Die Veröffentlichung stellt Modellgewichte, Datasets und den beschriebenen adaptiven Reasoning-Ansatz zur Verfügung, um Reasoning-Tiefe und Interpretierbarkeit zu steigern.
- Großes bimanuelles Dataset für Manipulationsforschung: Das MolmoAct 2-Bimanual YAM Dataset ist das größte quelloffene bimanuelle Tischmanipulations-Dataset mit über 720 Stunden Trainingsdemonstrationen.
So verwenden Sie MolmoAct 2
- Offene Release-Artefakte herunterladen: Laden Sie die MolmoAct 2-Modellgewichte und zugehörigen Assets aus der Veröffentlichung für Forscher herunter.
- Aktualisierte VLA-Pipeline nutzen: Starten Sie mit der aktualisierten Pipeline, die die beschriebene neuartige Adapter-Architektur verwendet.
- Mit den bereitgestellten Datasets trainieren/evaluieren: Für bimanuelle Tischmanipulations-Experimente nutzen Sie MolmoAct 2-Bimanual YAM; für andere embodied-reasoning-Experimente folgen Sie den forschungsorientierten Anleitungen der Veröffentlichung zum adaptiven Reasoning-Ansatz.
- Adaptives 3D-Reasoning anwenden: Verwenden Sie die mit der Veröffentlichung beschriebene adaptive Reasoning-Methode, um tiefere 3D-Reasoning zu fördern, wo sie die Leistung verbessert.
Anwendungsfälle
- Untersuchung von Action-Reasoning für Manipulation: Forscher können prüfen, wie 3D-Action-Reasoning die Leistung bei Aufgaben mit Kontakt, Greifen und Manipulieren von Objekten in Tischsetups beeinflusst.
- Benchmark-Reproduktion bei embodied-reasoning-Aufgaben: Die Veröffentlichung berichtet Evaluierungen über 13 embodied-reasoning-Benchmarks (z. B. Pointing, Multi-Image-Reasoning, Ego-Exo-Korrespondenz, Video-Räumliches-Reasoning) für vergleichende Studien.
- Bimanuelle Tischforschung: Teams bei Zweihand-Manipulation können das MolmoAct 2-Bimanual YAM Dataset (über 720 Stunden Demonstrationen) zum Trainieren und Evaluieren bimanualer Policies nutzen.
- Forschung zu offenen Modellarchitekturen: Die offene Foundation-Model-Einstellung erlaubt Forschern, Modellkomponenten (z. B. Reasoning-Backbone und Adapter-Architektur) zu untersuchen und zu modifizieren, statt auf geschlossene Systeme angewiesen zu sein.
- Entwicklung von Systemen mit reduziertem Per-Task-Fine-Tuning: Da MolmoAct 2 verschiedene reale Aufgaben out-of-the-box bewältigt, eignet es sich als Ausgangspunkt, um Anpassungskosten zu senken.
FAQ
-
Ist MolmoAct 2 für Forschung oder Produktionsumgebungen gedacht?
Die Veröffentlichung wird explizit als für Forscher positioniert, um darauf aufzubauen und zu studieren, beschreibt MolmoAct 2 jedoch auch als für den Einsatz in realen Umgebungen gebaut. -
Welches Dataset ist für bimanuelle Manipulation enthalten?
Die Veröffentlichung enthält MolmoAct 2-Bimanual YAM, das als größtes Open-Source-Dataset für bimanuelle Tischmanipulation beschrieben wird, mit über 720 Stunden Trainingsdemonstrationen. -
Was unterscheidet MolmoAct 2 vom früheren MolmoAct?
Das Update umfasst ein stärkeres Reasoning-Backbone (Molmo 2-ER), und die Veröffentlichung berichtet, dass MolmoAct 2 bis zu 37× schneller als der Vorgänger läuft. -
Erfordert das Modell pro-Aufgabe Fine-Tuning?
Die Veröffentlichung gibt an, dass MolmoAct 2 verschiedene reale Aufgaben out-of-the-box ohne pro-Aufgabe Fine-Tuning bewältigen kann. -
Was ist der adaptive Reasoning-Ansatz aus der Veröffentlichung?
Die Seite gibt an, dass die Veröffentlichung einen adaptiven Reasoning-Ansatz enthält, der MolmoAct 2 helfen soll, tiefer in 3D zu reasonen, um Leistung und Interpretierbarkeit zu steigern.
Alternativen
- Geschlossene Robotics-Foundation-Modelle: Einige Teams veröffentlichen Weights, aber weniger Daten; diese Alternativen können einschränken, wie Forscher Daten studieren, Ergebnisse reproduzieren oder Komponenten modifizieren können.
- Action- oder Vision-Language-Modelle für embodied Tasks mit separater Tooling: Statt eines dedizierten Action-Reasoning-Foundation-Modells kombinieren einige Teams general-purpose Vision-Language-Modelle mit downstream Robotic-Control-Stacks; dies unterscheidet sich im Workflow, da Reasoning und Action von separaten Komponenten gehandhabt werden können.
- Andere offene Robotics-Datasets für Manipulation: Wenn der primäre Bedarf Daten statt einer bestimmten Modellarchitektur sind, können Forscher offene Manipulation-Datasets nutzen und Policies mit eigenen Model/Backbone-Wahlen trainieren.
- Embodied-Reasoning-Benchmarks und Training-Pipelines: Ein anderer Ansatz ist der Fokus auf benchmark-getriebene Training/Evaluation-Pipelines für embodied-Reasoning-Tasks; dies unterscheidet sich durch Betonung von Evaluationsmethodik und Experimentier-Setup statt einer spezifischen offenen Foundation-Model-Veröffentlichung.
Alternativen
AakarDev AI
AakarDev AI ist eine leistungsstarke Plattform, die die Entwicklung von KI-Anwendungen mit nahtloser Integration von Vektordatenbanken vereinfacht und eine schnelle Bereitstellung und Skalierbarkeit ermöglicht.
BookAI.chat
BookAI ermöglicht es Ihnen, mit Ihren Büchern zu chatten, indem Sie einfach den Titel und den Autor angeben.
skills-janitor
skills-janitor prüft, verfolgt die Nutzung und vergleicht deine Claude Code Skills mit neun Slash-Command-Aktionen – ohne Abhängigkeiten.
FeelFish
FeelFish KI-Roman-Schreib-Agent: PC-Client für Autor:innen zum Planen von Figuren und Settings, Generieren und Überarbeiten von Kapiteln sowie Plot-Fortsetzung mit Kontextkonsistenz.
BenchSpan
BenchSpan führt KI-Agent-Benchmarks parallel aus, erfasst Scores und Fehler in einer geordneten Run-Historie und macht Ergebnisse commit-gebunden reproduzierbar.
ChatBA
ChatBA ist generative KI für Slides: Erstelle mit Chat-Workflow schnell Inhalte für Präsentationsfolien direkt aus deiner Eingabe.