MolmoWeb
MolmoWeb é um agente visual web open source que executa tarefas no navegador a partir de screenshots, com MolmoWebMix e ferramentas de treino e avaliação.
O que é MolmoWeb?
MolmoWeb é um agente visual web open source que automatiza tarefas no navegador interpretando a página web ao vivo por meio de screenshots. Dado uma instrução de tarefa, um modelo Molmo observa a tela atual, decide o próximo passo e executa ações no navegador, como clicar, digitar ou rolar.
É projetado como um sistema self-hosted (localmente ou em serviços de nuvem) e lançado junto com pesos de modelo, um dataset para treinar agentes web (MolmoWebMix) e as ferramentas de avaliação necessárias para reproduzir, fine-tunar e avaliar o comportamento de agentes web.
Principais Recursos
- Agente visual web open source construído sobre a família de modelos multimodais Molmo 2 (disponível em tamanhos 4B e 8B), com pesos e assets relacionados a treinamento para experimentação.
- Loop de controle de navegador baseado em screenshots: o agente recebe uma instrução de tarefa, um screenshot da visão atual do navegador e histórico recente de ações, então gera a próxima ação no navegador.
- Ações de navegador compatíveis com interfaces visuais: suporta navegar para URLs, clicar em coordenadas da tela, digitar em campos, rolar, abrir/trocar abas e enviar mensagens de volta ao usuário.
- Ferramentas open source de treinamento e avaliação lançadas no repositório MolmoWeb, incluindo:
- Código de treinamento para customizar o MolmoWeb para aplicações específicas.
- Uma ferramenta de anotação para gravar demonstrações de tarefas humanas e fine-tunar com esses dados.
- Um harness de avaliação para benchmarks de navegação (WebVoyager, Online-Mind2Web, WebTailBench, Deepshop).
- Suporte a dados e datasets:
- Dataset MolmoWebMix para treinar agentes web.
- Pipeline de geração de dados sintéticos dentro das ferramentas que pode gerar dados de navegação web usando agentes impulsionados por LLM-/VLM com entrada AxTree/screenshot.
Como Usar o MolmoWeb
- Comece pelo repositório GitHub do MolmoWeb para obter os assets e ferramentas lançados, incluindo o código de treinamento, harness de avaliação e outros componentes descritos na atualização.
- Use a ferramenta de coleta de anotações (se quiser comportamento específico de domínio) para gravar demonstrações de tarefas humanas, então fine-tune o MolmoWeb usando o código de treinamento fornecido.
- Avalie as execuções do seu agente com o harness de avaliação incluído contra os benchmarks de navegação suportados.
- Para inspeção interativa, use o código client-side do demo do MolmoWeb para inserir uma tarefa e observar o agente navegando em sites em tempo real.
Casos de Uso
- Reproduzir e avaliar desempenho de agentes web: execute o MolmoWeb com o harness de avaliação em benchmarks comuns de navegação como WebVoyager, Online-Mind2Web, WebTailBench ou Deepshop.
- Fine-tuning para um novo domínio com demonstrações humanas: use a ferramenta de anotação para gravar demonstrações de tarefas relevantes para o seu site ou workflow, então fine-tune o MolmoWeb com esses dados coletados.
- Construir uma UI customizada para agente web: pegue o código do demo client-side lançado como ponto de partida para criar sua própria interface para enviar tarefas a um agente e visualizar navegação no navegador.
- Gerar dados de treinamento para navegação web: use o pipeline de geração de dados sintéticos incluído para produzir trajetórias de navegação, aproveitando agentes impulsionados por LLM- e VLM- com entrada AxTree/screenshot.
- Pesquisar pipelines open source de agentes web end-to-end: use a combinação de dataset (MolmoWebMix), código de treinamento e ferramentas de avaliação para inspecionar e melhorar múltiplas partes da stack (coleta de dados, treinamento e benchmarking).
FAQ
O dataset inicial de treinamento lançado no Hugging Face foi atualizado?
Sim. A página nota que, se você baixou anteriormente os dados de treinamento do Hugging Face, deve baixar novamente porque os datasets foram atualizados desde o lançamento inicial.
Que tipos de ações o MolmoWeb pode realizar no navegador?
A fonte descreve suporte para navegar para URLs, clicar em coordenadas da tela, digitar texto, rolar, abrir ou trocar abas do navegador e enviar uma mensagem de volta ao usuário.
Como o MolmoWeb decide o que fazer em seguida?
Em cada passo, ele usa a instrução de tarefa, um screenshot da visão atual do navegador e histórico recente de ações para produzir a próxima ação no navegador.
O que é MolmoWebMix?
MolmoWebMix é descrito como um dataset grande e diversificado para treinar agentes web, lançado junto com um pipeline completo de treinamento e avaliação.
O que o harness de avaliação inclui?
O harness de avaliação é descrito como ferramentas para avaliar agentes web como o MolmoWeb em benchmarks de navegação incluindo WebVoyager, Online-Mind2Web, WebTailBench e Deepshop.
Alternativas
- Plataformas proprietárias de agentes web: podem oferecer automação pronta para uso, mas geralmente dependem de dados e métodos de treinamento não divulgados, diferente da abordagem open model/data/code do MolmoWeb.
- Agentes de automação de navegador baseados em screenshots construídos a partir de outros modelos multimodais: também podem usar entradas visuais para acionar ações no navegador, mas podem diferir em pesos disponíveis, conjuntos de dados e ferramentas de avaliação.
- Frameworks gerais de automação de navegador (baseados em regras ou scripts): podem automatizar fluxos de trabalho específicos sem aprender com demonstrações ou benchmarks, mas geralmente exigem mais lógica pré-definida.
- Pipelines de agentes personalizados focados em representações estruturadas de página (HTML/árvores de acessibilidade): em vez de screenshots, usam representações estruturadas, alterando como percepção e ação se conectam.
Alternativas
AgentMail
AgentMail é uma API de inbox de e-mail para agentes de IA: crie, envie, receba e pesquise mensagens via REST para conversas bidirecionais.
LobeHub
LobeHub é uma plataforma de código aberto projetada para construir, implantar e colaborar com companheiros de equipe de IA, funcionando como uma Interface Web Universal de LLM.
Codex Plugins
Use Codex Plugins para combinar skills, integrações de apps e servidores MCP em fluxos reutilizáveis, ampliando o acesso do Codex a Gmail, Drive e Slack.
Tavus
Tavus desenvolve sistemas de IA em tempo real para interações face a face, com visão, audição e resposta, além de vídeo agentes e companheiros via APIs.
HiringPartner.ai
HiringPartner.ai é uma plataforma de recrutamento autônoma com agentes de IA que buscam, triagem, ligam e entrevistam candidatos 24/7, reduzindo o time-to-hire de semanas para apenas 48 horas.
AakarDev AI
AakarDev AI é uma plataforma poderosa que simplifica o desenvolvimento de aplicações de IA com integração perfeita de banco de dados vetorial, permitindo implantação rápida e escalabilidade.