MolmoWeb

Qu’est-ce que MolmoWeb ?

MolmoWeb est un agent web visuel open source qui automatise les tâches de navigateur en interprétant la page web en direct via des captures d’écran. À partir d’une instruction de tâche, un modèle Molmo observe l’écran actuel, décide de l’étape suivante et exécute des actions de navigateur telles que cliquer, taper ou faire défiler.

Il est conçu comme un système auto-hébergé (localement ou sur des services cloud) et est publié avec des poids de modèles, un jeu de données pour entraîner des agents web (MolmoWebMix), ainsi que les outils d’évaluation nécessaires pour reproduire, affiner et évaluer le comportement des agents web.

Fonctionnalités principales

Agent web visuel open source basé sur la famille de modèles multimodaux Molmo 2 (disponibles en tailles 4B et 8B), avec poids et ressources liées à l’entraînement pour expérimentation.
Boucle de contrôle de navigateur basée sur captures d’écran : l’agent reçoit une instruction de tâche, une capture d’écran de la vue actuelle du navigateur et l’historique récent des actions, puis produit une action de navigateur suivante.
Actions de navigateur adaptées aux interfaces visuelles : prend en charge la navigation vers des URL, les clics aux coordonnées d’écran, la saisie dans les champs, le défilement, l’ouverture/changement d’onglets, et l’envoi de messages à l’utilisateur.
Outils open source d’entraînement et d’évaluation publiés dans le dépôt MolmoWeb, incluant :
- Code d’entraînement pour personnaliser MolmoWeb à des applications spécifiques.
- Un outil d’annotation pour enregistrer des démonstrations de tâches humaines et affiner sur ces données.
- Un harnais d’évaluation pour les benchmarks de navigation (WebVoyager, Online-Mind2Web, WebTailBench, Deepshop).
Support de publication de données et jeux de données :
- Jeu de données MolmoWebMix pour entraîner des agents web.
- Un pipeline de génération de données synthétiques dans les outils, capable de produire des données de navigation web via des agents alimentés par LLM/VLM avec entrée AxTree/capture d’écran.

Comment utiliser MolmoWeb

Commencez par le dépôt GitHub MolmoWeb pour obtenir les ressources et outils publiés, y compris le code d’entraînement, le harnais d’évaluation et les autres composants décrits dans la mise à jour.
Utilisez l’outil de collecte d’annotations (si vous voulez un comportement spécifique à un domaine) pour enregistrer des démonstrations de tâches humaines, puis affinez MolmoWeb avec le code d’entraînement fourni.
Évaluez vos exécutions d’agent avec le harnais d’évaluation inclus sur les benchmarks de navigation supportés.
Pour une inspection interactive, utilisez le code client-side de la démo MolmoWeb pour saisir une tâche et observer l’agent naviguer sur des sites web en temps réel.

Cas d’usage

Reproduire et évaluer les performances d’agents web : exécutez MolmoWeb avec le harnais d’évaluation sur des benchmarks de navigation courants comme WebVoyager, Online-Mind2Web, WebTailBench ou Deepshop.
Affinage pour un nouveau domaine avec démonstrations humaines : utilisez l’outil d’annotation pour enregistrer des démonstrations de tâches pertinentes pour votre site web ou flux de travail, puis affinez MolmoWeb sur ces données collectées.
Construire une UI personnalisée pour agent web : prenez le code de démo client-side publié comme point de départ pour créer votre propre interface pour envoyer des tâches à un agent et visualiser la navigation du navigateur.
Générer des données d’entraînement pour navigation web : utilisez le pipeline de génération de données synthétiques inclus pour produire des trajectoires de navigation, en exploitant des agents alimentés par LLM et VLM avec entrée AxTree/capture d’écran.
Rechercher des pipelines open source d’agents web de bout en bout : utilisez la combinaison du jeu de données (MolmoWebMix), du code d’entraînement et des outils d’évaluation pour inspecter et améliorer plusieurs parties de la pile (collecte de données, entraînement et benchmarking).

FAQ

Le jeu de données d’entraînement initial publié sur Hugging Face a-t-il été mis à jour ?
Oui. La page indique que si vous avez précédemment téléchargé les données d’entraînement depuis Hugging Face, vous devez les retélécharger car les jeux de données ont été mis à jour depuis la publication initiale.

Quelles sortes d’actions MolmoWeb peut-il effectuer dans le navigateur ?
La source décrit le support de la navigation vers des URL, des clics aux coordonnées d’écran, la saisie de texte, le défilement, l’ouverture ou le changement d’onglets du navigateur, et l’envoi d’un message à l’utilisateur.

Comment MolmoWeb décide-t-il de la prochaine action ?
À chaque étape, il utilise l’instruction de tâche, une capture d’écran de la vue actuelle du navigateur et l’historique récent des actions pour produire une action de navigateur suivante.

Qu’est-ce que MolmoWebMix ?
MolmoWebMix est décrit comme un jeu de données large et diversifié pour entraîner des agents web, publié avec un pipeline complet d’entraînement et d’évaluation.

Que contient le harnais d’évaluation ?
Le harnais d’évaluation est décrit comme un outil pour évaluer des agents web comme MolmoWeb sur des benchmarks de navigation incluant WebVoyager, Online-Mind2Web, WebTailBench et Deepshop.

Alternatives

Plateformes d’agents web propriétaires : elles offrent souvent une automatisation clé en main, mais reposent généralement sur des données et méthodes d’entraînement non divulguées, contrairement à l’approche open model/data/code de MolmoWeb.
Agents d’automatisation de navigateur basés sur captures d’écran construits à partir d’autres modèles multimodaux : ils peuvent aussi utiliser des entrées visuelles pour piloter les actions du navigateur, mais diffèrent par les poids disponibles, les jeux de données et les outils d’évaluation.
Frameworks d’automatisation de navigateur généralistes (basés sur règles ou scripts) : ils automatisent des workflows spécifiques sans apprentissage à partir de démonstrations ou benchmarks, mais nécessitent généralement plus de logique prédéfinie.
Pipelines d’agents personnalisés axés sur des représentations structurées des pages (HTML/arbres d’accessibilité) : au lieu de captures d’écran, ils utilisent des représentations structurées, modifiant la connexion entre perception et action.

MolmoWeb

Qu’est-ce que MolmoWeb ?

Fonctionnalités principales

Comment utiliser MolmoWeb

Cas d’usage

FAQ

Alternatives

Alternatives

AgentMail

LobeHub

Lasso

Codex Plugins

Tavus

HiringPartner.ai