MolmoWeb
MolmoWeb è un visual web agent open che completa attività in browser da screenshot. Pubblicato con MolmoWebMix e strumenti di training e valutazione.
Cos'è MolmoWeb?
MolmoWeb è un visual web agent open che automatizza attività in browser interpretando la pagina web live tramite screenshot. Data un'istruzione di compito, un modello Molmo osserva lo schermo corrente, decide il passo successivo ed esegue azioni in browser come clic, digitazione o scorrimento.
È progettato come sistema self-hosted (locale o su servizi cloud) e pubblicato con pesi del modello, un dataset per training di web agent (MolmoWebMix) e gli strumenti di valutazione necessari per riprodurre, fine-tunare e valutare il comportamento di web agent.
Caratteristiche Principali
- Visual web agent open basato sulla famiglia di modelli multimodali Molmo 2 (disponibili in dimensioni 4B e 8B), con pesi e asset correlati al training per esperimenti.
- Ciclo di controllo browser basato su screenshot: l'agent riceve un'istruzione di compito, uno screenshot della vista browser corrente e la cronologia recente delle azioni, quindi genera la prossima azione in browser.
- Azioni browser abbinate a interfacce visive: supporta navigazione a URL, clic su coordinate dello schermo, digitazione in campi, scorrimento, apertura/cambio tab e invio messaggi all'utente.
- Strumenti open di training e valutazione pubblicati nel repository MolmoWeb, inclusi:
- Codice di training per personalizzare MolmoWeb su applicazioni specifiche.
- Uno strumento di annotazione per registrare dimostrazioni umane di compiti e fine-tunare su quei dati.
- Un harness di valutazione per benchmark di navigazione (WebVoyager, Online-Mind2Web, WebTailBench, Deepshop).
- Supporto rilascio dati e dataset:
- Dataset MolmoWebMix per training web agent.
- Un pipeline di generazione dati sintetici negli strumenti che produce dati di navigazione web usando agent potenziati da LLM-/VLM con input AxTree/screenshot.
Come Usare MolmoWeb
- Parti dal repository GitHub di MolmoWeb per ottenere gli asset e strumenti pubblicati, inclusi codice di training, harness di valutazione e altri componenti descritti nell'update.
- Usa lo strumento di raccolta annotazioni (se vuoi comportamento domain-specific) per registrare dimostrazioni umane di compiti, poi fine-tuna MolmoWeb con il codice di training fornito.
- Valuta le run del tuo agent con il harness di valutazione incluso sui benchmark di navigazione supportati.
- Per ispezione interattiva, usa il codice client-side della demo MolmoWeb per inserire un compito e osservare l'agent navigare siti web in tempo reale.
Casi d'Uso
- Riprodurre e valutare performance web-agent: esegui MolmoWeb con il harness di valutazione su benchmark di navigazione comuni come WebVoyager, Online-Mind2Web, WebTailBench o Deepshop.
- Fine-tuning per un nuovo dominio con dimostrazioni umane: usa lo strumento di annotazione per registrare dimostrazioni di compiti rilevanti per il tuo sito o workflow, poi fine-tuna MolmoWeb su quei dati raccolti.
- Costruire un'UI custom per web-agent: prendi il codice demo client-side pubblicato come punto di partenza per creare la tua interfaccia per inviare compiti a un agent e visualizzare navigazione browser.
- Generare dati di training per navigazione web: usa il pipeline di generazione dati sintetici incluso per produrre traiettorie di browsing, sfruttando agent potenziati da LLM- e VLM- con input AxTree/screenshot.
- Ricercare pipeline open web-agent end-to-end: usa la combinazione di dataset (MolmoWebMix), codice di training e strumenti di valutazione per ispezionare e migliorare più parti dello stack (raccolta dati, training e benchmarking).
FAQ
Il dataset iniziale di training rilasciato su Hugging Face è stato aggiornato?
Sì. La pagina nota che se hai scaricato in precedenza i dati di training da Hugging Face, dovresti scaricarli di nuovo perché i dataset sono stati aggiornati dalla release iniziale.
Che tipi di azioni può eseguire MolmoWeb nel browser?
La fonte descrive supporto per navigazione a URL, clic su coordinate dello schermo, digitazione testo, scorrimento, apertura o cambio tab browser e invio messaggio all'utente.
Come decide MolmoWeb cosa fare dopo?
A ogni passo, usa l'istruzione di compito, uno screenshot della vista browser corrente e la cronologia recente delle azioni per generare la prossima azione in browser.
Cos'è MolmoWebMix?
MolmoWebMix è descritto come un dataset grande e diversificato per training web agent, pubblicato con un pipeline completo di training e valutazione.
Cosa include il harness di valutazione?
Il harness di valutazione è descritto come tooling per valutare web agent come MolmoWeb su benchmark di navigazione inclusi WebVoyager, Online-Mind2Web, WebTailBench e Deepshop.
Alternative
- Piattaforme proprietarie per web agent: offrono spesso automazione pronta all’uso, ma si basano tipicamente su dati e metodi di training non divulgati, a differenza dell’approccio open model/data/code di MolmoWeb.
- Agent di automazione browser basati su screenshot costruiti da altri modelli multimodali: possono usare input visivi per guidare azioni nel browser, ma differiscono per pesi disponibili, dataset e tooling di valutazione.
- Framework generali di automazione browser (basati su regole o script): automatizzano workflow specifici senza apprendere da dimostrazioni o benchmark, ma richiedono generalmente più logica predefinita.
- Pipeline di agent custom focalizzate su rappresentazioni strutturate delle pagine (HTML/alberi di accessibilità): usano rappresentazioni strutturate invece di screenshot, modificando il collegamento tra percezione e azione.
Alternative
AgentMail
AgentMail è una Email Inbox API per agenti AI: crea, invia, ricevi e cerca email via REST per conversazioni bidirezionali.
LobeHub
LobeHub è una piattaforma open-source progettata per costruire, distribuire e collaborare con compagni di squadra agenti AI, funzionando come un'interfaccia Web UI universale per LLM.
Codex Plugins
Usa Codex Plugins per combinare skill, integrazioni app e server MCP in workflow riutilizzabili: estendi Codex per lavorare con Gmail, Google Drive e Slack.
Tavus
Tavus sviluppa sistemi AI in tempo reale per interazioni faccia a faccia: vedono, ascoltano e rispondono. Video agent, digital twin e companion via API.
HiringPartner.ai
HiringPartner.ai è una piattaforma di recruiting autonoma con agenti AI che ricercano, selezionano, chiamano e intervistano i candidati 24/7, riducendo il time-to-hire da settimane a appena 48 ore.
AakarDev AI
AakarDev AI è una piattaforma potente che semplifica lo sviluppo di applicazioni AI con integrazione fluida dei database vettoriali, consentendo un rapido deployment e scalabilità.