MolmoAct 2

MolmoAct 2 — полностью открытая робототехническая foundation-модель для 3D-рассуждений перед действием, с датасетом MolmoAct 2-Bimanual YAM.

Большие языковые модели

Посетить Сайт

Что такое MolmoAct 2?

MolmoAct 2 — полностью открытая робототехническая foundation-модель, предназначенная для поддержки рассуждений о действиях робота в реальных средах. Она фокусируется на задачах, требующих 3D-рассуждений о среде перед действием, с целью уменьшить необходимость дообучения под каждую задачу в типичных сценариях манипуляции.

Помимо модели, релиз включает датасет MolmoAct 2-Bimanual YAM и обновлённый VLA-пайплайн с новой архитектурой адаптера. Всё это предназначено для исследователей, желающих изучать, воспроизводить и развивать рассуждения о действиях для манипуляции и других бенчмарков embodied reasoning.

Ключевые особенности

Модель рассуждений о действиях (ARM) в 3D перед действием: MolmoAct 2 рассуждает о среде в 3D перед выполнением действия, обеспечивая улучшенную производительность на задачах embodied-reasoning.
Разработана для сценариев реального развёртывания: Модель создана для реальных сред, а не только для валидации на бенчмарках.
Обновлённая открытая основа рассуждений (Molmo 2-ER): MolmoAct 2 основана на Molmo 2-ER — специализированной embodied-reasoning-вариации Molmo 2, дополнительно обученной на примерах embodied reasoning (включая пространственные Q&A на изображениях и видео).
Быстрее предшественника: Релиз сообщает, что MolmoAct 2 работает до 37× быстрее предшественника.
Открытый исследовательский пакет: Релиз предоставляет веса модели, датасеты и описанный адаптивный подход к рассуждениям для повышения глубины и интерпретируемости.
Большой бимануальный датасет для исследований манипуляции: Датасет MolmoAct 2-Bimanual YAM — крупнейший открытый бимануальный датасет для манипуляции на столешнице, с более 720 часами демонстраций обучения.

Как использовать MolmoAct 2

Получите артефакты открытого релиза: Скачайте веса модели MolmoAct 2 и связанные ресурсы из релиза для исследователей.
Используйте обновлённый VLA-пайплайн: Начните с обновлённого пайплайна на базе описанной новой архитектуры адаптера.
Обучайте/оценивайте с предоставленными датасетами: Для экспериментов по бимануальной манипуляции на столешнице используйте MolmoAct 2-Bimanual YAM; для других embodied-reasoning-экспериментов следуйте рекомендациям релиза по адаптивному подходу к рассуждениям.
Применяйте адаптивные 3D-рассуждения: Используйте описанный в релизе адаптивный метод рассуждений для углубления 3D-анализа там, где это улучшает производительность.

Сценарии применения

Изучение рассуждений о действиях для манипуляции: Исследователи могут изучать влияние 3D-рассуждений о действиях на задачи с контактом, захватом и манипуляцией объектов на столешнице.
Воспроизведение бенчмарков по embodied reasoning: Релиз включает оценку на 13 бенчмарках embodied reasoning (например, pointing, multi-image reasoning, ego-exo correspondence, video spatial reasoning), что позволяет проводить сравнительные исследования.
Бимануальные исследования на столешнице: Команды, работающие над манипуляцией двумя руками, могут использовать датасет MolmoAct 2-Bimanual YAM (более 720 часов демонстраций) для обучения и оценки бимануальных политик.
Исследования открытых архитектур моделей: Открытый формат foundation-модели позволяет анализировать и модифицировать компоненты (например, основу рассуждений и архитектуру адаптера), а не полагаться на закрытые системы.
Разработка систем с меньшим дообучением под задачи: Поскольку MolmoAct 2 справляется с различными реальными задачами из коробки, её можно использовать как основу для снижения затрат на кастомизацию.

Часто задаваемые вопросы

MolmoAct 2 предназначена для исследований или производственного развертывания?
Релиз явно позиционируется как доступный для исследователей для изучения и доработки, при этом MolmoAct 2 описывается как готовая к развертыванию в реальных средах.
Какой датасет включен для бимануальной манипуляции?
Релиз включает MolmoAct 2-Bimanual YAM, описанный как крупнейший открытый датасет бимануальной манипуляции на столе, с более 720 часами демонстраций для обучения.
Чем MolmoAct 2 отличается от предыдущей MolmoAct?
Обновление включает более мощный reasoning backbone (Molmo 2-ER), и релиз сообщает, что MolmoAct 2 работает до 37× быстрее, чем предшественник.
Требует ли модель дообучения под каждую задачу?
Релиз заявляет, что MolmoAct 2 может справляться с различными реальными задачами из коробки без дообучения под каждую задачу.
Что такое адаптивный подход к рассуждениям, упомянутый в релизе?
Страница указывает, что релиз включает адаптивный подход к рассуждениям, предназначенный для помощи MolmoAct 2 в более глубоких 3D-рассуждениях для повышения производительности и интерпретируемости.

Альтернативы

Закрытые робототехнические foundation-модели: Некоторые команды публикуют веса, но меньше публикуют данные; эти альтернативы могут ограничивать, как исследователи изучают данные, воспроизводят результаты или модифицируют компоненты.
Модели действий или vision-language для embodied-задач с отдельным tooling: Вместо专用ной action-reasoning foundation-модели некоторые команды комбинируют универсальные vision-language модели с downstream-стэками робототехнического управления; это отличается по workflow, поскольку рассуждения и действия могут обрабатываться отдельными компонентами.
Другие открытые робототехнические датасеты для манипуляции: Если основная потребность — данные, а не конкретная архитектура модели, исследователи могут использовать открытые датасеты манипуляции и обучать политики с использованием своих выборов модели/backbone.
Бенчмарки embodied reasoning и training-пайплайны: Другой подход — фокус на benchmark-driven training/evaluation пайплайнах для embodied-reasoning задач; это отличается акцентом на методологию оценки и экспериментальный сетап вместо конкретного релиза открытой foundation-модели.

Альтернативы

AakarDev AI

AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.

BookAI.chat

BookAI позволяет вам общаться с вашими книгами, просто предоставив название и автора.

skills-janitor

skills-janitor для Claude Code: аудит и учет навыков, сравнение с девятью командами /janitor-* и поиск дублей без зависимостей.

FeelFish

FeelFish AI Novel Writing Agent — клиент для ПК: планируйте персонажей и мир, генерируйте и редактируйте главы, продолжайте сюжет с сохранением контекста.

BenchSpan

BenchSpan запускает AI agent бенчмарки параллельно, фиксирует результаты и ошибки в истории прогонов, помогает воспроизводить их по commit hash.

ChatBA

ChatBA — генеративный AI для создания слайд‑деков в чат‑формате: быстро набросайте контент для презентации из ваших идей.