UStackUStack
MolmoAct 2 icon

MolmoAct 2

MolmoAct 2 é um modelo aberto de fundação robótica para raciocínio de ação 3D, lançado com o dataset MolmoAct 2-Bimanual YAM.

MolmoAct 2

O que é o MolmoAct 2?

MolmoAct 2 é um modelo aberto de fundação robótica projetado para suportar raciocínio de ações robóticas em ambientes do mundo real. Ele foca em tarefas que exigem que o sistema raciocine sobre um ambiente em 3D antes de agir, visando reduzir a necessidade de fine-tuning por tarefa em cenários comuns de manipulação.

Além do modelo, o lançamento inclui o dataset MolmoAct 2-Bimanual YAM e um pipeline VLA atualizado com uma arquitetura de adaptador inovadora. Juntos, eles são destinados a pesquisadores que desejam estudar, reproduzir e construir sobre raciocínio de ações para manipulação e outros benchmarks de raciocínio incorporado.

Principais Recursos

  • Modelo de Raciocínio de Ações (ARM) em 3D antes de agir: O MolmoAct 2 raciocina sobre seu ambiente em 3D antes de agir, visando melhor desempenho em tarefas de avaliação de raciocínio incorporado.
  • Projetado para cenários de implantação no mundo real: O modelo é apresentado como construído para ambientes reais, não apenas para validação de benchmarks.
  • Backbone de raciocínio aberto atualizado (Molmo 2-ER): O MolmoAct 2 é baseado no Molmo 2-ER, uma variante especializada de raciocínio incorporado do Molmo 2, treinada adicionalmente em exemplos de raciocínio incorporado (incluindo resposta a perguntas espaciais baseadas em imagem e vídeo).
  • Inferência mais rápida que o predecessor: O lançamento relata que o MolmoAct 2 executa até 37× mais rápido que seu predecessor.
  • Pacote de pesquisa aberto: O lançamento disponibiliza os pesos do modelo, datasets e a abordagem de raciocínio adaptativo descrita para aumentar a profundidade e interpretabilidade do raciocínio.
  • Grande dataset bimanual para pesquisa em manipulação: O dataset MolmoAct 2-Bimanual YAM é relatado como o maior dataset open-source de manipulação de mesa bimanual, com mais de 720 horas de demonstrações de treinamento.

Como Usar o MolmoAct 2

  1. Obtenha os artefatos do lançamento aberto: Baixe os pesos do modelo MolmoAct 2 e ativos relacionados fornecidos no lançamento para pesquisadores.
  2. Use o pipeline VLA atualizado: Comece com o pipeline atualizado que utiliza a arquitetura de adaptador inovadora descrita.
  3. Treine/avalia usando os datasets fornecidos: Para experimentos de manipulação de mesa bimanual, use MolmoAct 2-Bimanual YAM; para outros experimentos de raciocínio incorporado, siga as orientações focadas em pesquisa do lançamento sobre a abordagem de raciocínio adaptativo.
  4. Aplique raciocínio 3D adaptativo: Use o método de raciocínio adaptativo descrito no lançamento para incentivar raciocínio 3D mais profundo onde melhora o desempenho.

Casos de Uso

  • Estudando raciocínio de ações para manipulação: Pesquisadores podem investigar como o raciocínio de ações 3D afeta o desempenho em tarefas que envolvem contato, agarramento e manipulação de objetos em setups de mesa.
  • Reprodução de benchmarks em tarefas de raciocínio incorporado: O lançamento relata avaliação em 13 benchmarks de raciocínio incorporado (ex.: apontamento, raciocínio multi-imagem, correspondência ego-exo, raciocínio espacial em vídeo), permitindo estudo comparativo.
  • Pesquisa bimanual em mesa: Equipes trabalhando com manipulação de dois braços podem usar o dataset MolmoAct 2-Bimanual YAM (mais de 720 horas de demonstrações) para treinar e avaliar políticas bimanuais.
  • Pesquisa em arquiteturas de modelos abertos: O cenário de modelo de fundação aberto permite que pesquisadores examinem e modifiquem componentes do modelo (ex.: backbone de raciocínio e arquitetura de adaptador) em vez de depender de sistemas fechados.
  • Desenvolvendo sistemas que reduzem fine-tuning por tarefa: Como o MolmoAct 2 é descrito como lidando com várias tarefas do mundo real diretamente, ele pode servir como ponto de partida para trabalhos visando reduzir custos de customização.

FAQ

  • O MolmoAct 2 é destinado a pesquisa ou implantações em produção? O lançamento é explicitamente posicionado como disponível para pesquisadores estudarem e construírem sobre ele, ao mesmo tempo em que descreve o MolmoAct 2 como construído para ser implantado em ambientes do mundo real.

  • Qual dataset está incluído para manipulação bimanual? O lançamento inclui MolmoAct 2-Bimanual YAM, descrito como o maior dataset open-source de manipulação bimanual em mesa, com mais de 720 horas de demonstrações de treinamento.

  • O que diferencia o MolmoAct 2 do MolmoAct anterior? A atualização inclui uma base de raciocínio mais forte (Molmo 2-ER), e o lançamento relata que o MolmoAct 2 executa até 37× mais rápido que seu predecessor.

  • O modelo requer fine-tuning por tarefa? O lançamento afirma que o MolmoAct 2 pode lidar com várias tarefas do mundo real diretamente, sem fine-tuning por tarefa.

  • Qual é a abordagem de raciocínio adaptativo mencionada no lançamento? A página afirma que o lançamento inclui uma abordagem de raciocínio adaptativo destinada a ajudar o MolmoAct 2 a raciocinar mais profundamente em 3D, melhorando desempenho e interpretabilidade.

Alternativas

  • Modelos de fundação robótica fechados: Algumas equipes liberam pesos, mas poucas liberam dados; essas alternativas podem limitar como pesquisadores podem estudar dados, reproduzir resultados ou modificar componentes.
  • Modelos de ação ou visão-linguagem usados para tarefas incorporadas com ferramentas separadas: Em vez de um modelo de fundação dedicado a raciocínio de ação, algumas equipes podem combinar modelos de visão-linguagem de propósito geral com pilhas de controle robótico downstream; isso difere no fluxo de trabalho porque raciocínio e ação podem ser tratados por componentes separados.
  • Outros datasets robóticos abertos para manipulação: Se a necessidade principal for dados em vez de uma arquitetura de modelo específica, pesquisadores podem usar datasets abertos de manipulação e treinar políticas usando suas próprias escolhas de modelo/base.
  • Benchmarks de raciocínio incorporado e pipelines de treinamento: Outra abordagem é focar em pipelines de treinamento/avaliação guiados por benchmarks para tarefas de raciocínio incorporado; isso difere ao enfatizar metodologia de avaliação e configuração de experimentação sobre um lançamento específico de modelo de fundação aberto.