MolmoAct 2
MolmoAct 2: modelo base robótico totalmente abierto para razonar acciones en 3D, lanzado con el dataset MolmoAct 2-Bimanual YAM para investigación reproducible.
¿Qué es MolmoAct 2?
MolmoAct 2 es un modelo base robótico totalmente abierto diseñado para soportar el razonamiento de acciones robóticas en entornos del mundo real. Se centra en tareas que requieren que el sistema razone sobre un entorno en 3D antes de actuar, con el objetivo de reducir la necesidad de ajuste fino por tarea en escenarios comunes de manipulación.
Además del modelo, el lanzamiento incluye el dataset MolmoAct 2-Bimanual YAM y una tubería VLA actualizada con una arquitectura de adaptador novedosa. En conjunto, están destinados a investigadores que deseen estudiar, reproducir y construir sobre el razonamiento de acciones para manipulación y otros benchmarks de razonamiento encarnado.
Características clave
- Modelo de Razonamiento de Acciones (ARM) en 3D antes de actuar: MolmoAct 2 razona sobre su entorno en 3D antes de tomar acción, buscando mejorar el rendimiento en tareas de evaluación de razonamiento encarnado.
- Diseñado para escenarios de despliegue en el mundo real: El modelo se presenta como construido para entornos del mundo real, no solo para validación de benchmarks.
- Espina dorsal de razonamiento abierta mejorada (Molmo 2-ER): MolmoAct 2 se basa en Molmo 2-ER, una variante especializada en razonamiento encarnado de Molmo 2, entrenada adicionalmente con ejemplos de razonamiento encarnado (incluyendo respuesta a preguntas espaciales basada en imágenes y videos).
- Inferencia más rápida que el predecesor: El lanzamiento reporta que MolmoAct 2 funciona hasta 37× más rápido que su predecesor.
- Paquete de investigación abierto: El lanzamiento pone a disposición los pesos del modelo, datasets y el enfoque de razonamiento adaptativo descrito para potenciar la profundidad e interpretabilidad del razonamiento.
- Gran dataset bimanual para investigación en manipulación: El dataset MolmoAct 2-Bimanual YAM se reporta como el dataset de manipulación en mesa bimanual de código abierto más grande, con más de 720 horas de demostraciones de entrenamiento.
Cómo usar MolmoAct 2
- Obtén los artefactos de la versión abierta: Descarga los pesos del modelo MolmoAct 2 y los assets relacionados proporcionados en el lanzamiento para investigadores.
- Usa la tubería VLA actualizada: Comienza con la tubería actualizada que emplea la arquitectura de adaptador novedosa descrita.
- Entrena/evalúa usando el/los dataset(s) proporcionados: Para experimentos de manipulación en mesa bimanual, usa MolmoAct 2-Bimanual YAM; para otros experimentos de razonamiento encarnado, sigue la guía enfocada en investigación del lanzamiento sobre el enfoque de razonamiento adaptativo.
- Aplica razonamiento 3D adaptativo: Usa el método de razonamiento adaptativo descrito con el lanzamiento para fomentar un razonamiento 3D más profundo donde mejore el rendimiento.
Casos de uso
- Estudiar razonamiento de acciones para manipulación: Los investigadores pueden investigar cómo el razonamiento de acciones en 3D afecta el rendimiento en tareas que involucran contacto, agarre y manipulación de objetos en configuraciones de mesa.
- Reproducción de benchmarks en tareas de razonamiento encarnado: El lanzamiento reporta evaluación en 13 benchmarks de razonamiento encarnado (p. ej., pointing, razonamiento multi-imagen, correspondencia ego-exo, razonamiento espacial en video), permitiendo estudios comparativos.
- Investigación bimanual en mesa: Equipos que trabajan en manipulación con dos brazos pueden usar el dataset MolmoAct 2-Bimanual YAM (más de 720 horas de demostraciones) para entrenar y evaluar políticas bimanuales.
- Investigación en arquitecturas de modelos abiertos: El entorno de modelo base abierto permite a los investigadores examinar y modificar componentes del modelo (p. ej., espina dorsal de razonamiento y arquitectura de adaptador) en lugar de depender de sistemas cerrados.
- Desarrollar sistemas que reduzcan el ajuste fino por tarea: Dado que MolmoAct 2 se describe como capaz de manejar diversas tareas del mundo real de inmediato, puede usarse como punto de partida para trabajos dirigidos a bajar los costos de personalización.
Preguntas frecuentes
-
¿Está MolmoAct 2 pensado para investigación o implementaciones en producción? El lanzamiento se posiciona explícitamente como disponible para que los investigadores lo estudien y desarrollen, al tiempo que describe a MolmoAct 2 como construido para implementarse en entornos del mundo real.
-
¿Qué dataset se incluye para manipulación bimanual? El lanzamiento incluye MolmoAct 2-Bimanual YAM, descrito como el dataset de manipulación bimanual en mesa de código abierto más grande, con más de 720 horas de demostraciones de entrenamiento.
-
¿Qué diferencia a MolmoAct 2 del MolmoAct anterior? La actualización incluye un backbone de razonamiento más potente (Molmo 2-ER), y el lanzamiento informa que MolmoAct 2 se ejecuta hasta 37× más rápido que su predecesor.
-
¿Requiere el modelo ajuste fino por tarea? El lanzamiento indica que MolmoAct 2 puede manejar diversas tareas del mundo real directamente sin ajuste fino por tarea.
-
¿Cuál es el enfoque de razonamiento adaptativo mencionado en el lanzamiento? La página indica que el lanzamiento incluye un enfoque de razonamiento adaptativo destinado a ayudar a MolmoAct 2 a razonar más profundamente en 3D para mejorar el rendimiento e interpretabilidad.
Alternativas
- Modelos base robóticos cerrados: Algunos equipos publican pesos pero menos publican datos; estas alternativas pueden limitar cómo los investigadores pueden estudiar datos, reproducir resultados o modificar componentes.
- Modelos de acción o visión-lenguaje usados para tareas encarnadas con herramientas separadas: En lugar de un modelo base dedicado a razonamiento de acciones, algunos equipos combinan modelos de visión-lenguaje de propósito general con pilas de control robótico downstream; esto difiere en el flujo de trabajo porque el razonamiento y la acción pueden manejarse por componentes separados.
- Otros datasets robóticos abiertos para manipulación: Si la necesidad principal es data en lugar de una arquitectura de modelo particular, los investigadores pueden usar datasets de manipulación abiertos y entrenar políticas con sus propias elecciones de modelo/backbone.
- Benchmarks de razonamiento encarnado y pipelines de entrenamiento: Otro enfoque es centrarse en pipelines de entrenamiento/evaluación impulsados por benchmarks para tareas de razonamiento encarnado; esto difiere al enfatizar la metodología de evaluación y la configuración de experimentación sobre un lanzamiento específico de modelo base abierto.
Alternativas
AakarDev AI
AakarDev AI es una plataforma poderosa que simplifica el desarrollo de aplicaciones de IA con integración fluida de bases de datos vectoriales, permitiendo un despliegue y escalabilidad rápidos.
BookAI.chat
BookAI te permite chatear con tus libros usando IA simplemente proporcionando el título y el autor.
skills-janitor
skills-janitor audita y registra el uso de tus habilidades de Claude Code, comparándolas con 9 acciones de slash y sin dependencias.
FeelFish
FeelFish AI Novel Writing Agent para PC ayuda a planificar personajes y escenarios, generar y editar capítulos y continuar tramas con consistencia.
BenchSpan
BenchSpan ejecuta benchmarks de agentes con IA en paralelo, registra puntuaciones y fallos en un historial organizado y ayuda a reproducir resultados por commit.
ChatBA
ChatBA es IA generativa para crear presentaciones: redacta el contenido con un flujo tipo chat y genera diapositivas a partir de tu idea.