MolmoWeb
MolmoWeb es un agente web visual de código abierto que completa tareas del navegador a partir de capturas. Incluye MolmoWebMix y herramientas de formación y evaluación.
¿Qué es MolmoWeb?
MolmoWeb es un agente web visual de código abierto que automatiza tareas del navegador interpretando la página web en vivo a través de capturas de pantalla. Dado una instrucción de tarea, un modelo Molmo observa la pantalla actual, decide el siguiente paso y ejecuta acciones del navegador como hacer clic, escribir o desplazarse.
Está diseñado como un sistema autoalojado (local o en servicios en la nube) y se lanza junto con pesos de modelos, un dataset para entrenar agentes web (MolmoWebMix) y las herramientas de evaluación necesarias para reproducir, ajustar y evaluar el comportamiento de agentes web.
Características principales
- Agente web visual de código abierto basado en la familia de modelos multimodales Molmo 2 (disponible en tamaños de 4B y 8B), con pesos y recursos relacionados con el entrenamiento para experimentación.
- Bucle de control del navegador basado en capturas: el agente recibe una instrucción de tarea, una captura de la vista actual del navegador y el historial reciente de acciones, luego genera la siguiente acción del navegador.
- Acciones del navegador adaptadas a interfaces visuales: soporta navegar a URLs, hacer clic en coordenadas de pantalla, escribir en campos, desplazarse, abrir/cambiar pestañas y enviar mensajes de vuelta al usuario.
- Herramientas de entrenamiento y evaluación de código abierto en el repositorio MolmoWeb, incluyendo:
- Código de entrenamiento para personalizar MolmoWeb en aplicaciones específicas.
- Una herramienta de anotación para grabar demostraciones humanas de tareas y ajustar con esos datos.
- Un arnés de evaluación para benchmarks de navegación (WebVoyager, Online-Mind2Web, WebTailBench, Deepshop).
- Soporte para datos y datasets:
- Dataset MolmoWebMix para entrenar agentes web.
- Un pipeline de generación de datos sintéticos dentro de las herramientas que puede generar datos de navegación web usando agentes impulsados por LLM-/VLM con entrada AxTree/captura.
Cómo usar MolmoWeb
- Comienza desde el repositorio GitHub de MolmoWeb para obtener los recursos y herramientas lanzados, incluyendo el código de entrenamiento, el arnés de evaluación y otros componentes descritos en la actualización.
- Usa la herramienta de recolección de anotaciones (si quieres comportamiento específico de dominio) para grabar demostraciones humanas de tareas, luego ajusta MolmoWeb con el código de entrenamiento proporcionado.
- Evalúa las ejecuciones de tu agente con el arnés de evaluación incluido contra los benchmarks de navegación soportados.
- Para inspección interactiva, usa el código del lado del cliente para la demo de MolmoWeb para ingresar una tarea y observar al agente navegando sitios web en tiempo real.
Casos de uso
- Reproducir y evaluar rendimiento de agentes web: ejecuta MolmoWeb con el arnés de evaluación en benchmarks comunes de navegación como WebVoyager, Online-Mind2Web, WebTailBench o Deepshop.
- Ajuste fino para un nuevo dominio con demostraciones humanas: usa la herramienta de anotación para grabar demostraciones de tareas relevantes para tu sitio web o flujo de trabajo, luego ajusta MolmoWeb con esos datos recolectados.
- Construir una UI personalizada para agente web: toma el código de demo del lado del cliente lanzado como punto de partida para crear tu propia interfaz para enviar tareas a un agente y ver la navegación del navegador.
- Generar datos de entrenamiento para navegación web: usa el pipeline de generación de datos sintéticos incluido para producir trayectorias de navegación, aprovechando agentes impulsados por LLM- y VLM- con entrada AxTree/captura.
- Investigar pipelines de agentes web abiertos de extremo a extremo: usa la combinación de dataset (MolmoWebMix), código de entrenamiento y herramientas de evaluación para inspeccionar y mejorar múltiples partes del stack (recolección de datos, entrenamiento y benchmarking).
Preguntas frecuentes
¿Se actualizó el dataset inicial de entrenamiento lanzado en Hugging Face?
Sí. La página indica que si descargaste previamente los datos de entrenamiento de Hugging Face, debes volver a descargarlos porque los datasets se actualizaron desde el lanzamiento inicial.
¿Qué tipos de acciones puede realizar MolmoWeb en el navegador?
La fuente describe soporte para navegar a URLs, hacer clic en coordenadas de pantalla, escribir texto, desplazarse, abrir o cambiar pestañas del navegador y enviar un mensaje de vuelta al usuario.
¿Cómo decide MolmoWeb qué hacer a continuación?
En cada paso, usa la instrucción de tarea, una captura de la vista actual del navegador y el historial reciente de acciones para generar la siguiente acción del navegador.
¿Qué es MolmoWebMix?
MolmoWebMix se describe como un dataset grande y diverso para entrenar agentes web, lanzado junto con un pipeline completo de entrenamiento y evaluación.
¿Qué incluye el arnés de evaluación?
El arnés de evaluación se describe como herramientas para evaluar agentes web como MolmoWeb en benchmarks de navegación incluyendo WebVoyager, Online-Mind2Web, WebTailBench y Deepshop.
Alternativas
- Plataformas propietarias de agentes web: pueden ofrecer automatización lista para usar, pero suelen depender de datos y métodos de entrenamiento no revelados, a diferencia del enfoque de modelo/datos/código abierto de MolmoWeb.
- Agentes de automatización de navegador basados en capturas construidos con otros modelos multimodales: también pueden usar entradas visuales para dirigir acciones del navegador, pero pueden diferir en pesos disponibles, conjuntos de datos y herramientas de evaluación.
- Marcos de automatización de navegador de propósito general (basados en reglas o scripts): pueden automatizar flujos de trabajo específicos sin aprender de demostraciones o benchmarks, pero generalmente requieren más lógica predefinida.
- Tuberías de agentes personalizadas enfocadas en representaciones estructuradas de página (HTML/árboles de accesibilidad): en lugar de capturas, usan representaciones estructuradas, lo que cambia cómo se conectan percepción y acción.
Alternativas
AgentMail
AgentMail es una API de bandeja de entrada por correo para agentes de IA: crear, enviar, recibir y buscar mensajes por REST para conversaciones bidireccionales.
LobeHub
LobeHub es una plataforma de código abierto diseñada para construir, desplegar y colaborar con compañeros de equipo de agentes de IA, funcionando como una interfaz web universal para LLM.
Lasso
Lasso es un PIM con IA para equipos de ecommerce: enriquece atributos y descripciones, procesa datos de proveedores y monitoriza competidores por app o API.
Codex Plugins
Usa Codex Plugins para combinar skills, integraciones de apps y servidores MCP en flujos reutilizables que amplían el acceso de Codex a Gmail, Drive y Slack.
Tavus
Tavus crea sistemas de IA que ven, oyen y responden en tiempo real para interacciones cara a cara, con agentes de vídeo y gemelos digitales vía APIs.
HiringPartner.ai
HiringPartner.ai es una plataforma de reclutamiento autónomo con agentes de IA que buscan, filtran, llaman y entrevistan candidatos 24/7, reduciendo el time-to-hire de semanas a tan solo 48 horas.