UStackUStack
MolmoAct 2 icon

MolmoAct 2

MolmoAct 2 — полностью открытая робототехническая foundation-модель для 3D-рассуждений перед действием, с датасетом MolmoAct 2-Bimanual YAM.

MolmoAct 2

Что такое MolmoAct 2?

MolmoAct 2 — полностью открытая робототехническая foundation-модель, предназначенная для поддержки рассуждений о действиях робота в реальных средах. Она фокусируется на задачах, требующих 3D-рассуждений о среде перед действием, с целью уменьшить необходимость дообучения под каждую задачу в типичных сценариях манипуляции.

Помимо модели, релиз включает датасет MolmoAct 2-Bimanual YAM и обновлённый VLA-пайплайн с новой архитектурой адаптера. Всё это предназначено для исследователей, желающих изучать, воспроизводить и развивать рассуждения о действиях для манипуляции и других бенчмарков embodied reasoning.

Ключевые особенности

  • Модель рассуждений о действиях (ARM) в 3D перед действием: MolmoAct 2 рассуждает о среде в 3D перед выполнением действия, обеспечивая улучшенную производительность на задачах embodied-reasoning.
  • Разработана для сценариев реального развёртывания: Модель создана для реальных сред, а не только для валидации на бенчмарках.
  • Обновлённая открытая основа рассуждений (Molmo 2-ER): MolmoAct 2 основана на Molmo 2-ER — специализированной embodied-reasoning-вариации Molmo 2, дополнительно обученной на примерах embodied reasoning (включая пространственные Q&A на изображениях и видео).
  • Быстрее предшественника: Релиз сообщает, что MolmoAct 2 работает до 37× быстрее предшественника.
  • Открытый исследовательский пакет: Релиз предоставляет веса модели, датасеты и описанный адаптивный подход к рассуждениям для повышения глубины и интерпретируемости.
  • Большой бимануальный датасет для исследований манипуляции: Датасет MolmoAct 2-Bimanual YAM — крупнейший открытый бимануальный датасет для манипуляции на столешнице, с более 720 часами демонстраций обучения.

Как использовать MolmoAct 2

  1. Получите артефакты открытого релиза: Скачайте веса модели MolmoAct 2 и связанные ресурсы из релиза для исследователей.
  2. Используйте обновлённый VLA-пайплайн: Начните с обновлённого пайплайна на базе описанной новой архитектуры адаптера.
  3. Обучайте/оценивайте с предоставленными датасетами: Для экспериментов по бимануальной манипуляции на столешнице используйте MolmoAct 2-Bimanual YAM; для других embodied-reasoning-экспериментов следуйте рекомендациям релиза по адаптивному подходу к рассуждениям.
  4. Применяйте адаптивные 3D-рассуждения: Используйте описанный в релизе адаптивный метод рассуждений для углубления 3D-анализа там, где это улучшает производительность.

Сценарии применения

  • Изучение рассуждений о действиях для манипуляции: Исследователи могут изучать влияние 3D-рассуждений о действиях на задачи с контактом, захватом и манипуляцией объектов на столешнице.
  • Воспроизведение бенчмарков по embodied reasoning: Релиз включает оценку на 13 бенчмарках embodied reasoning (например, pointing, multi-image reasoning, ego-exo correspondence, video spatial reasoning), что позволяет проводить сравнительные исследования.
  • Бимануальные исследования на столешнице: Команды, работающие над манипуляцией двумя руками, могут использовать датасет MolmoAct 2-Bimanual YAM (более 720 часов демонстраций) для обучения и оценки бимануальных политик.
  • Исследования открытых архитектур моделей: Открытый формат foundation-модели позволяет анализировать и модифицировать компоненты (например, основу рассуждений и архитектуру адаптера), а не полагаться на закрытые системы.
  • Разработка систем с меньшим дообучением под задачи: Поскольку MolmoAct 2 справляется с различными реальными задачами из коробки, её можно использовать как основу для снижения затрат на кастомизацию.

Часто задаваемые вопросы

  • MolmoAct 2 предназначена для исследований или производственного развертывания?
    Релиз явно позиционируется как доступный для исследователей для изучения и доработки, при этом MolmoAct 2 описывается как готовая к развертыванию в реальных средах.

  • Какой датасет включен для бимануальной манипуляции?
    Релиз включает MolmoAct 2-Bimanual YAM, описанный как крупнейший открытый датасет бимануальной манипуляции на столе, с более 720 часами демонстраций для обучения.

  • Чем MolmoAct 2 отличается от предыдущей MolmoAct?
    Обновление включает более мощный reasoning backbone (Molmo 2-ER), и релиз сообщает, что MolmoAct 2 работает до 37× быстрее, чем предшественник.

  • Требует ли модель дообучения под каждую задачу?
    Релиз заявляет, что MolmoAct 2 может справляться с различными реальными задачами из коробки без дообучения под каждую задачу.

  • Что такое адаптивный подход к рассуждениям, упомянутый в релизе?
    Страница указывает, что релиз включает адаптивный подход к рассуждениям, предназначенный для помощи MolmoAct 2 в более глубоких 3D-рассуждениях для повышения производительности и интерпретируемости.

Альтернативы

  • Закрытые робототехнические foundation-модели: Некоторые команды публикуют веса, но меньше публикуют данные; эти альтернативы могут ограничивать, как исследователи изучают данные, воспроизводят результаты или модифицируют компоненты.
  • Модели действий или vision-language для embodied-задач с отдельным tooling: Вместо专用ной action-reasoning foundation-модели некоторые команды комбинируют универсальные vision-language модели с downstream-стэками робототехнического управления; это отличается по workflow, поскольку рассуждения и действия могут обрабатываться отдельными компонентами.
  • Другие открытые робототехнические датасеты для манипуляции: Если основная потребность — данные, а не конкретная архитектура модели, исследователи могут использовать открытые датасеты манипуляции и обучать политики с использованием своих выборов модели/backbone.
  • Бенчмарки embodied reasoning и training-пайплайны: Другой подход — фокус на benchmark-driven training/evaluation пайплайнах для embodied-reasoning задач; это отличается акцентом на методологию оценки и экспериментальный сетап вместо конкретного релиза открытой foundation-модели.