UStackUStack
MolmoWeb icon

MolmoWeb

MolmoWeb ist ein offener visueller Web-Agent, der Browseraufgaben allein über Screenshots abschließt. Mit MolmoWebMix sowie Tools für Training & Evaluation.

MolmoWeb

Was ist MolmoWeb?

MolmoWeb ist ein offener visueller Web-Agent, der Browseraufgaben durch Interpretation der Live-Webseite über Screenshots automatisiert. Bei einer Aufgabenanweisung beobachtet ein Molmo-Modell den aktuellen Bildschirm, entscheidet den nächsten Schritt und führt Browseraktionen wie Klicken, Tippen oder Scrollen aus.

Es ist als selbst gehostetes System (lokal oder in der Cloud) konzipiert und wird zusammen mit Modellgewichten, einem Datensatz zum Trainieren von Web-Agenten (MolmoWebMix) sowie der Evaluation- und Tooling-Komponenten veröffentlicht, die benötigt werden, um Web-Agent-Verhalten zu reproduzieren, zu fine-tunen und zu bewerten.

Wichtige Features

  • Offener visueller Web-Agent auf Basis der Molmo 2 Multimodal-Modellfamilie (in 4B- und 8B-Größen verfügbar), mit Gewichten und Trainings-Assets für Experimente.
  • Screenshot-basierte Browser-Steuerungsschleife: Der Agent erhält eine Aufgabenanweisung, einen Screenshot der aktuellen Browseransicht und die jüngste Aktionshistorie, dann gibt er die nächste Browseraktion aus.
  • Browseraktionen abgestimmt auf visuelle Interfaces: Unterstützt Navigation zu URLs, Klicken an Bildschirmkoordinaten, Tippen in Felder, Scrollen, Öffnen/Wechseln von Tabs sowie das Senden von Nachrichten an den Nutzer.
  • Offenes Training- und Evaluation-Tooling im MolmoWeb-Repository, einschließlich:
    • Trainingscode zur Anpassung von MolmoWeb an spezifische Anwendungen.
    • Ein Annotationstool zur Aufzeichnung menschlicher Aufgabendemonstrationen und zum Fine-Tuning auf diesen Daten.
    • Ein Evaluation-Harness für Navigationsbenchmarks (WebVoyager, Online-Mind2Web, WebTailBench, Deepshop).
  • Unterstützung für Daten- und Datensatz-Veröffentlichung:
    • MolmoWebMix-Datensatz zum Trainieren von Web-Agenten.
    • Eine synthetische Datenpipeline im Tooling, die Web-Browsing-Daten mit LLM-/VLM-gestützten Agenten und AxTree/Screenshot-Eingaben generiert.

So nutzt du MolmoWeb

  1. Starte im MolmoWeb GitHub-Repository, um die veröffentlichten Assets und Tools zu erhalten, einschließlich Trainingscode, Evaluation-Harness und weiterer im Update beschriebener Komponenten.
  2. Nutze das Annotationstool (für domänenspezifisches Verhalten), um menschliche Aufgabendemonstrationen aufzunehmen, und fine-tune MolmoWeb dann mit dem bereitgestellten Trainingscode.
  3. Bewerte deine Agent-Läufe mit dem enthaltenen Evaluation-Harness an den unterstützten Navigationsbenchmarks.
  4. Für interaktive Inspektion: Verwende den Client-seitigen Code der MolmoWeb-Demo, um Aufgaben einzugeben und den Agenten in Echtzeit bei der Navigation auf Websites zu beobachten.

Anwendungsfälle

  • Reproduzieren und Bewerten von Web-Agent-Performance: Führe MolmoWeb mit dem Evaluation-Harness auf gängigen Navigationsbenchmarks wie WebVoyager, Online-Mind2Web, WebTailBench oder Deepshop aus.
  • Fine-Tuning für eine neue Domäne mit menschlichen Demonstrationen: Nutze das Annotationstool, um aufgabenrelevante Demonstrationen für deine Website oder deinen Workflow aufzunehmen, und fine-tune MolmoWeb auf diesen Daten.
  • Erstellen einer benutzerdefinierten Web-Agent-UI: Nimm den veröffentlichten Client-seitigen Demo-Code als Ausgangspunkt, um deine eigene Oberfläche zum Senden von Aufgaben an einen Agenten und zum Anzeigen der Browsernavigation zu bauen.
  • Generieren von Trainingsdaten für Web-Browsing: Verwende die enthaltenen synthetischen Datenpipeline, um Browsing-Trajektorien zu erzeugen, unter Nutzung von LLM- und VLM-gestützten Agenten mit AxTree/Screenshot-Eingaben.
  • End-to-End-Forschung an offenen Web-Agent-Pipelines: Nutze die Kombination aus Datensatz (MolmoWebMix), Trainingscode und Evaluation-Tooling, um mehrere Stack-Komponenten (Datensammlung, Training, Benchmarking) zu untersuchen und zu verbessern.

FAQ

Wurde der anfängliche Trainingsdatensatz auf Hugging Face aktualisiert?
Ja. Die Seite weist darauf hin, dass du den Trainingsdatensatz von Hugging Face neu herunterladen solltest, falls du ihn zuvor heruntergeladen hast, da die Datensätze seit der Initialveröffentlichung aktualisiert wurden.

Welche Aktionen kann MolmoWeb im Browser ausführen?
Die Quelle beschreibt Unterstützung für Navigation zu URLs, Klicken an Bildschirmkoordinaten, Tippen von Text, Scrollen, Öffnen oder Wechseln von Browser-Tabs sowie das Senden einer Nachricht an den Nutzer.

Wie entscheidet MolmoWeb, was als Nächstes zu tun ist?
Bei jedem Schritt verwendet es die Aufgabenanweisung, einen Screenshot der aktuellen Browseransicht und die jüngste Aktionshistorie, um die nächste Browseraktion zu erzeugen.

Was ist MolmoWebMix?
MolmoWebMix wird als umfangreicher und diverser Datensatz zum Trainieren von Web-Agenten beschrieben, veröffentlicht zusammen mit einer vollständigen Training- und Evaluation-Pipeline.

Was umfasst der Evaluation-Harness?
Der Evaluation-Harness wird als Tooling beschrieben, um Web-Agenten wie MolmoWeb an Navigationsbenchmarks wie WebVoyager, Online-Mind2Web, WebTailBench und Deepshop zu evaluieren.

Alternativen

  • Proprietäre Web-Agent-Plattformen: Diese bieten oft sofort einsatzbereite Automatisierung, verlassen sich aber typischerweise auf nicht offengelegten Trainingsdaten und -methoden – im Gegensatz zum offenen Modell-/Daten-/Code-Ansatz von MolmoWeb.
  • Screenshot-basierte Browser-Automatisierungsagenten auf Basis anderer multimodaler Modelle: Diese können ebenfalls visuelle Eingaben für Browseraktionen nutzen, unterscheiden sich jedoch in verfügbaren Gewichten, Datensätzen und Evaluierungstools.
  • Allgemeine Browser-Automatisierungs-Frameworks (regel- oder skriptbasiert): Diese automatisieren spezifische Workflows ohne Lernen aus Demonstrationen oder Benchmarks, erfordern aber meist mehr vordefinierte Logik.
  • Eigene Agent-Pipelines mit Fokus auf strukturierten Seitenrepräsentationen (HTML/Zugänglichkeitsbäume): Statt Screenshots nutzen sie strukturierte Repräsentationen und verknüpfen Wahrnehmung und Aktion anders.
MolmoWeb | UStack