MolmoAct 2
MolmoAct 2 — полностью открытая робототехническая foundation-модель для 3D-рассуждений перед действием, с датасетом MolmoAct 2-Bimanual YAM.
Что такое MolmoAct 2?
MolmoAct 2 — полностью открытая робототехническая foundation-модель, предназначенная для поддержки рассуждений о действиях робота в реальных средах. Она фокусируется на задачах, требующих 3D-рассуждений о среде перед действием, с целью уменьшить необходимость дообучения под каждую задачу в типичных сценариях манипуляции.
Помимо модели, релиз включает датасет MolmoAct 2-Bimanual YAM и обновлённый VLA-пайплайн с новой архитектурой адаптера. Всё это предназначено для исследователей, желающих изучать, воспроизводить и развивать рассуждения о действиях для манипуляции и других бенчмарков embodied reasoning.
Ключевые особенности
- Модель рассуждений о действиях (ARM) в 3D перед действием: MolmoAct 2 рассуждает о среде в 3D перед выполнением действия, обеспечивая улучшенную производительность на задачах embodied-reasoning.
- Разработана для сценариев реального развёртывания: Модель создана для реальных сред, а не только для валидации на бенчмарках.
- Обновлённая открытая основа рассуждений (Molmo 2-ER): MolmoAct 2 основана на Molmo 2-ER — специализированной embodied-reasoning-вариации Molmo 2, дополнительно обученной на примерах embodied reasoning (включая пространственные Q&A на изображениях и видео).
- Быстрее предшественника: Релиз сообщает, что MolmoAct 2 работает до 37× быстрее предшественника.
- Открытый исследовательский пакет: Релиз предоставляет веса модели, датасеты и описанный адаптивный подход к рассуждениям для повышения глубины и интерпретируемости.
- Большой бимануальный датасет для исследований манипуляции: Датасет MolmoAct 2-Bimanual YAM — крупнейший открытый бимануальный датасет для манипуляции на столешнице, с более 720 часами демонстраций обучения.
Как использовать MolmoAct 2
- Получите артефакты открытого релиза: Скачайте веса модели MolmoAct 2 и связанные ресурсы из релиза для исследователей.
- Используйте обновлённый VLA-пайплайн: Начните с обновлённого пайплайна на базе описанной новой архитектуры адаптера.
- Обучайте/оценивайте с предоставленными датасетами: Для экспериментов по бимануальной манипуляции на столешнице используйте MolmoAct 2-Bimanual YAM; для других embodied-reasoning-экспериментов следуйте рекомендациям релиза по адаптивному подходу к рассуждениям.
- Применяйте адаптивные 3D-рассуждения: Используйте описанный в релизе адаптивный метод рассуждений для углубления 3D-анализа там, где это улучшает производительность.
Сценарии применения
- Изучение рассуждений о действиях для манипуляции: Исследователи могут изучать влияние 3D-рассуждений о действиях на задачи с контактом, захватом и манипуляцией объектов на столешнице.
- Воспроизведение бенчмарков по embodied reasoning: Релиз включает оценку на 13 бенчмарках embodied reasoning (например, pointing, multi-image reasoning, ego-exo correspondence, video spatial reasoning), что позволяет проводить сравнительные исследования.
- Бимануальные исследования на столешнице: Команды, работающие над манипуляцией двумя руками, могут использовать датасет MolmoAct 2-Bimanual YAM (более 720 часов демонстраций) для обучения и оценки бимануальных политик.
- Исследования открытых архитектур моделей: Открытый формат foundation-модели позволяет анализировать и модифицировать компоненты (например, основу рассуждений и архитектуру адаптера), а не полагаться на закрытые системы.
- Разработка систем с меньшим дообучением под задачи: Поскольку MolmoAct 2 справляется с различными реальными задачами из коробки, её можно использовать как основу для снижения затрат на кастомизацию.
Часто задаваемые вопросы
-
MolmoAct 2 предназначена для исследований или производственного развертывания?
Релиз явно позиционируется как доступный для исследователей для изучения и доработки, при этом MolmoAct 2 описывается как готовая к развертыванию в реальных средах. -
Какой датасет включен для бимануальной манипуляции?
Релиз включает MolmoAct 2-Bimanual YAM, описанный как крупнейший открытый датасет бимануальной манипуляции на столе, с более 720 часами демонстраций для обучения. -
Чем MolmoAct 2 отличается от предыдущей MolmoAct?
Обновление включает более мощный reasoning backbone (Molmo 2-ER), и релиз сообщает, что MolmoAct 2 работает до 37× быстрее, чем предшественник. -
Требует ли модель дообучения под каждую задачу?
Релиз заявляет, что MolmoAct 2 может справляться с различными реальными задачами из коробки без дообучения под каждую задачу. -
Что такое адаптивный подход к рассуждениям, упомянутый в релизе?
Страница указывает, что релиз включает адаптивный подход к рассуждениям, предназначенный для помощи MolmoAct 2 в более глубоких 3D-рассуждениях для повышения производительности и интерпретируемости.
Альтернативы
- Закрытые робототехнические foundation-модели: Некоторые команды публикуют веса, но меньше публикуют данные; эти альтернативы могут ограничивать, как исследователи изучают данные, воспроизводят результаты или модифицируют компоненты.
- Модели действий или vision-language для embodied-задач с отдельным tooling: Вместо专用ной action-reasoning foundation-модели некоторые команды комбинируют универсальные vision-language модели с downstream-стэками робототехнического управления; это отличается по workflow, поскольку рассуждения и действия могут обрабатываться отдельными компонентами.
- Другие открытые робототехнические датасеты для манипуляции: Если основная потребность — данные, а не конкретная архитектура модели, исследователи могут использовать открытые датасеты манипуляции и обучать политики с использованием своих выборов модели/backbone.
- Бенчмарки embodied reasoning и training-пайплайны: Другой подход — фокус на benchmark-driven training/evaluation пайплайнах для embodied-reasoning задач; это отличается акцентом на методологию оценки и экспериментальный сетап вместо конкретного релиза открытой foundation-модели.
Альтернативы
AakarDev AI
AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.
BookAI.chat
BookAI позволяет вам общаться с вашими книгами, просто предоставив название и автора.
skills-janitor
skills-janitor для Claude Code: аудит и учет навыков, сравнение с девятью командами /janitor-* и поиск дублей без зависимостей.
FeelFish
FeelFish AI Novel Writing Agent — клиент для ПК: планируйте персонажей и мир, генерируйте и редактируйте главы, продолжайте сюжет с сохранением контекста.
BenchSpan
BenchSpan запускает AI agent бенчмарки параллельно, фиксирует результаты и ошибки в истории прогонов, помогает воспроизводить их по commit hash.
ChatBA
ChatBA — генеративный AI для создания слайд‑деков в чат‑формате: быстро набросайте контент для презентации из ваших идей.