MolmoAct 2
MolmoAct 2 é um modelo aberto de fundação robótica para raciocínio de ação 3D, lançado com o dataset MolmoAct 2-Bimanual YAM.
O que é o MolmoAct 2?
MolmoAct 2 é um modelo aberto de fundação robótica projetado para suportar raciocínio de ações robóticas em ambientes do mundo real. Ele foca em tarefas que exigem que o sistema raciocine sobre um ambiente em 3D antes de agir, visando reduzir a necessidade de fine-tuning por tarefa em cenários comuns de manipulação.
Além do modelo, o lançamento inclui o dataset MolmoAct 2-Bimanual YAM e um pipeline VLA atualizado com uma arquitetura de adaptador inovadora. Juntos, eles são destinados a pesquisadores que desejam estudar, reproduzir e construir sobre raciocínio de ações para manipulação e outros benchmarks de raciocínio incorporado.
Principais Recursos
- Modelo de Raciocínio de Ações (ARM) em 3D antes de agir: O MolmoAct 2 raciocina sobre seu ambiente em 3D antes de agir, visando melhor desempenho em tarefas de avaliação de raciocínio incorporado.
- Projetado para cenários de implantação no mundo real: O modelo é apresentado como construído para ambientes reais, não apenas para validação de benchmarks.
- Backbone de raciocínio aberto atualizado (Molmo 2-ER): O MolmoAct 2 é baseado no Molmo 2-ER, uma variante especializada de raciocínio incorporado do Molmo 2, treinada adicionalmente em exemplos de raciocínio incorporado (incluindo resposta a perguntas espaciais baseadas em imagem e vídeo).
- Inferência mais rápida que o predecessor: O lançamento relata que o MolmoAct 2 executa até 37× mais rápido que seu predecessor.
- Pacote de pesquisa aberto: O lançamento disponibiliza os pesos do modelo, datasets e a abordagem de raciocínio adaptativo descrita para aumentar a profundidade e interpretabilidade do raciocínio.
- Grande dataset bimanual para pesquisa em manipulação: O dataset MolmoAct 2-Bimanual YAM é relatado como o maior dataset open-source de manipulação de mesa bimanual, com mais de 720 horas de demonstrações de treinamento.
Como Usar o MolmoAct 2
- Obtenha os artefatos do lançamento aberto: Baixe os pesos do modelo MolmoAct 2 e ativos relacionados fornecidos no lançamento para pesquisadores.
- Use o pipeline VLA atualizado: Comece com o pipeline atualizado que utiliza a arquitetura de adaptador inovadora descrita.
- Treine/avalia usando os datasets fornecidos: Para experimentos de manipulação de mesa bimanual, use MolmoAct 2-Bimanual YAM; para outros experimentos de raciocínio incorporado, siga as orientações focadas em pesquisa do lançamento sobre a abordagem de raciocínio adaptativo.
- Aplique raciocínio 3D adaptativo: Use o método de raciocínio adaptativo descrito no lançamento para incentivar raciocínio 3D mais profundo onde melhora o desempenho.
Casos de Uso
- Estudando raciocínio de ações para manipulação: Pesquisadores podem investigar como o raciocínio de ações 3D afeta o desempenho em tarefas que envolvem contato, agarramento e manipulação de objetos em setups de mesa.
- Reprodução de benchmarks em tarefas de raciocínio incorporado: O lançamento relata avaliação em 13 benchmarks de raciocínio incorporado (ex.: apontamento, raciocínio multi-imagem, correspondência ego-exo, raciocínio espacial em vídeo), permitindo estudo comparativo.
- Pesquisa bimanual em mesa: Equipes trabalhando com manipulação de dois braços podem usar o dataset MolmoAct 2-Bimanual YAM (mais de 720 horas de demonstrações) para treinar e avaliar políticas bimanuais.
- Pesquisa em arquiteturas de modelos abertos: O cenário de modelo de fundação aberto permite que pesquisadores examinem e modifiquem componentes do modelo (ex.: backbone de raciocínio e arquitetura de adaptador) em vez de depender de sistemas fechados.
- Desenvolvendo sistemas que reduzem fine-tuning por tarefa: Como o MolmoAct 2 é descrito como lidando com várias tarefas do mundo real diretamente, ele pode servir como ponto de partida para trabalhos visando reduzir custos de customização.
FAQ
-
O MolmoAct 2 é destinado a pesquisa ou implantações em produção? O lançamento é explicitamente posicionado como disponível para pesquisadores estudarem e construírem sobre ele, ao mesmo tempo em que descreve o MolmoAct 2 como construído para ser implantado em ambientes do mundo real.
-
Qual dataset está incluído para manipulação bimanual? O lançamento inclui MolmoAct 2-Bimanual YAM, descrito como o maior dataset open-source de manipulação bimanual em mesa, com mais de 720 horas de demonstrações de treinamento.
-
O que diferencia o MolmoAct 2 do MolmoAct anterior? A atualização inclui uma base de raciocínio mais forte (Molmo 2-ER), e o lançamento relata que o MolmoAct 2 executa até 37× mais rápido que seu predecessor.
-
O modelo requer fine-tuning por tarefa? O lançamento afirma que o MolmoAct 2 pode lidar com várias tarefas do mundo real diretamente, sem fine-tuning por tarefa.
-
Qual é a abordagem de raciocínio adaptativo mencionada no lançamento? A página afirma que o lançamento inclui uma abordagem de raciocínio adaptativo destinada a ajudar o MolmoAct 2 a raciocinar mais profundamente em 3D, melhorando desempenho e interpretabilidade.
Alternativas
- Modelos de fundação robótica fechados: Algumas equipes liberam pesos, mas poucas liberam dados; essas alternativas podem limitar como pesquisadores podem estudar dados, reproduzir resultados ou modificar componentes.
- Modelos de ação ou visão-linguagem usados para tarefas incorporadas com ferramentas separadas: Em vez de um modelo de fundação dedicado a raciocínio de ação, algumas equipes podem combinar modelos de visão-linguagem de propósito geral com pilhas de controle robótico downstream; isso difere no fluxo de trabalho porque raciocínio e ação podem ser tratados por componentes separados.
- Outros datasets robóticos abertos para manipulação: Se a necessidade principal for dados em vez de uma arquitetura de modelo específica, pesquisadores podem usar datasets abertos de manipulação e treinar políticas usando suas próprias escolhas de modelo/base.
- Benchmarks de raciocínio incorporado e pipelines de treinamento: Outra abordagem é focar em pipelines de treinamento/avaliação guiados por benchmarks para tarefas de raciocínio incorporado; isso difere ao enfatizar metodologia de avaliação e configuração de experimentação sobre um lançamento específico de modelo de fundação aberto.
Alternativas
AakarDev AI
AakarDev AI é uma plataforma poderosa que simplifica o desenvolvimento de aplicações de IA com integração perfeita de banco de dados vetorial, permitindo implantação rápida e escalabilidade.
BookAI.chat
BookAI permite que você converse com seus livros usando IA, simplesmente fornecendo o título e o autor.
skills-janitor
skills-janitor audita, rastreia e compara suas skills do Claude Code com nove ações focadas por comandos slash, sem dependências.
FeelFish
FeelFish AI Novel Writing Agent para PC ajuda a criar personagens e cenários, gerar e editar capítulos e continuar tramas com consistência.
BenchSpan
BenchSpan executa benchmarks de agentes de IA em paralelo, registra scores e falhas em um histórico organizado e facilita reprodutibilidade por commit.
ChatBA
ChatBA é uma IA generativa para criar apresentações em slides com um fluxo de chat: gere rascunhos rapidamente a partir das suas ideias.