MolmoWeb
MolmoWeb es un agente web visual de código abierto que completa tareas del navegador a partir de capturas. Incluye MolmoWebMix y herramientas de formación y evaluación.
¿Qué es MolmoWeb?
MolmoWeb es un agente web visual de código abierto que automatiza tareas del navegador interpretando la página web en vivo a través de capturas de pantalla. Dado una instrucción de tarea, un modelo Molmo observa la pantalla actual, decide el siguiente paso y ejecuta acciones del navegador como hacer clic, escribir o desplazarse.
Está diseñado como un sistema autoalojado (local o en servicios en la nube) y se lanza junto con pesos de modelos, un dataset para entrenar agentes web (MolmoWebMix) y las herramientas de evaluación necesarias para reproducir, ajustar y evaluar el comportamiento de agentes web.
Características principales
- Agente web visual de código abierto basado en la familia de modelos multimodales Molmo 2 (disponible en tamaños de 4B y 8B), con pesos y recursos relacionados con el entrenamiento para experimentación.
- Bucle de control del navegador basado en capturas: el agente recibe una instrucción de tarea, una captura de la vista actual del navegador y el historial reciente de acciones, luego genera la siguiente acción del navegador.
- Acciones del navegador adaptadas a interfaces visuales: soporta navegar a URLs, hacer clic en coordenadas de pantalla, escribir en campos, desplazarse, abrir/cambiar pestañas y enviar mensajes de vuelta al usuario.
- Herramientas de entrenamiento y evaluación de código abierto en el repositorio MolmoWeb, incluyendo:
- Código de entrenamiento para personalizar MolmoWeb en aplicaciones específicas.
- Una herramienta de anotación para grabar demostraciones humanas de tareas y ajustar con esos datos.
- Un arnés de evaluación para benchmarks de navegación (WebVoyager, Online-Mind2Web, WebTailBench, Deepshop).
- Soporte para datos y datasets:
- Dataset MolmoWebMix para entrenar agentes web.
- Un pipeline de generación de datos sintéticos dentro de las herramientas que puede generar datos de navegación web usando agentes impulsados por LLM-/VLM con entrada AxTree/captura.
Cómo usar MolmoWeb
- Comienza desde el repositorio GitHub de MolmoWeb para obtener los recursos y herramientas lanzados, incluyendo el código de entrenamiento, el arnés de evaluación y otros componentes descritos en la actualización.
- Usa la herramienta de recolección de anotaciones (si quieres comportamiento específico de dominio) para grabar demostraciones humanas de tareas, luego ajusta MolmoWeb con el código de entrenamiento proporcionado.
- Evalúa las ejecuciones de tu agente con el arnés de evaluación incluido contra los benchmarks de navegación soportados.
- Para inspección interactiva, usa el código del lado del cliente para la demo de MolmoWeb para ingresar una tarea y observar al agente navegando sitios web en tiempo real.
Casos de uso
- Reproducir y evaluar rendimiento de agentes web: ejecuta MolmoWeb con el arnés de evaluación en benchmarks comunes de navegación como WebVoyager, Online-Mind2Web, WebTailBench o Deepshop.
- Ajuste fino para un nuevo dominio con demostraciones humanas: usa la herramienta de anotación para grabar demostraciones de tareas relevantes para tu sitio web o flujo de trabajo, luego ajusta MolmoWeb con esos datos recolectados.
- Construir una UI personalizada para agente web: toma el código de demo del lado del cliente lanzado como punto de partida para crear tu propia interfaz para enviar tareas a un agente y ver la navegación del navegador.
- Generar datos de entrenamiento para navegación web: usa el pipeline de generación de datos sintéticos incluido para producir trayectorias de navegación, aprovechando agentes impulsados por LLM- y VLM- con entrada AxTree/captura.
- Investigar pipelines de agentes web abiertos de extremo a extremo: usa la combinación de dataset (MolmoWebMix), código de entrenamiento y herramientas de evaluación para inspeccionar y mejorar múltiples partes del stack (recolección de datos, entrenamiento y benchmarking).
Preguntas frecuentes
¿Se actualizó el dataset inicial de entrenamiento lanzado en Hugging Face?
Sí. La página indica que si descargaste previamente los datos de entrenamiento de Hugging Face, debes volver a descargarlos porque los datasets se actualizaron desde el lanzamiento inicial.
¿Qué tipos de acciones puede realizar MolmoWeb en el navegador?
La fuente describe soporte para navegar a URLs, hacer clic en coordenadas de pantalla, escribir texto, desplazarse, abrir o cambiar pestañas del navegador y enviar un mensaje de vuelta al usuario.
¿Cómo decide MolmoWeb qué hacer a continuación?
En cada paso, usa la instrucción de tarea, una captura de la vista actual del navegador y el historial reciente de acciones para generar la siguiente acción del navegador.
¿Qué es MolmoWebMix?
MolmoWebMix se describe como un dataset grande y diverso para entrenar agentes web, lanzado junto con un pipeline completo de entrenamiento y evaluación.
¿Qué incluye el arnés de evaluación?
El arnés de evaluación se describe como herramientas para evaluar agentes web como MolmoWeb en benchmarks de navegación incluyendo WebVoyager, Online-Mind2Web, WebTailBench y Deepshop.
Alternativas
- Plataformas propietarias de agentes web: pueden ofrecer automatización lista para usar, pero suelen depender de datos y métodos de entrenamiento no revelados, a diferencia del enfoque de modelo/datos/código abierto de MolmoWeb.
- Agentes de automatización de navegador basados en capturas construidos con otros modelos multimodales: también pueden usar entradas visuales para dirigir acciones del navegador, pero pueden diferir en pesos disponibles, conjuntos de datos y herramientas de evaluación.
- Marcos de automatización de navegador de propósito general (basados en reglas o scripts): pueden automatizar flujos de trabajo específicos sin aprender de demostraciones o benchmarks, pero generalmente requieren más lógica predefinida.
- Tuberías de agentes personalizadas enfocadas en representaciones estructuradas de página (HTML/árboles de accesibilidad): en lugar de capturas, usan representaciones estructuradas, lo que cambia cómo se conectan percepción y acción.
Alternativas
AgentMail
AgentMail es una API de bandeja de entrada por correo para agentes de IA: crear, enviar, recibir y buscar mensajes por REST para conversaciones bidireccionales.
LobeHub
LobeHub es una plataforma de código abierto diseñada para construir, desplegar y colaborar con compañeros de equipo de agentes de IA, funcionando como una interfaz web universal para LLM.
Codex Plugins
Usa Codex Plugins para combinar skills, integraciones de apps y servidores MCP en flujos reutilizables que amplían el acceso de Codex a Gmail, Drive y Slack.
Tavus
Tavus crea sistemas de IA que ven, oyen y responden en tiempo real para interacciones cara a cara, con agentes de vídeo y gemelos digitales vía APIs.
HiringPartner.ai
HiringPartner.ai es una plataforma de reclutamiento autónomo con agentes de IA que buscan, filtran, llaman y entrevistan candidatos 24/7, reduciendo el time-to-hire de semanas a tan solo 48 horas.
AakarDev AI
AakarDev AI es una plataforma poderosa que simplifica el desarrollo de aplicaciones de IA con integración fluida de bases de datos vectoriales, permitiendo un despliegue y escalabilidad rápidos.