browse.sh icon

browse.sh

browse.sh è un catalogo aperto di skill per l’automazione del browser e una CLI per agenti AI per controllare siti web, ispezionare sessioni e usare flussi browser locali o cloud.

browse.sh

Che cos’è browse.sh?

browse.sh è un catalogo aperto di skill per l’automazione del browser e una browser CLI per agenti AI. Combina skill riutilizzabili specifiche per siti web con primitive di browser di livello inferiore, strumenti di debug e sessioni cloud, così gli agenti possono interagire con siti web e web app in modo strutturato.

Il catalogo è organizzato attorno a ricette SKILL.md per domini e attività specifici. Il sito mostra anche esempi di comandi per aggiungere skill, controllare le pagine tramite selector e riferimenti di accessibilità, ispezionare l’output di rete e console e passare tra Chromium locale e sessioni remote Browserbase.

Funzionalità principali

  • Catalogo aperto di skill per l’automazione del browser per siti e attività specifici, con voci come ricerche di contratti, prenotazione di corsi, stato dei voli, recensioni e ricerca di sentieri.
  • Flusso browse skills add per installare ricette di skill riutilizzabili che insegnano agli agenti AI come completare azioni sui siti web.
  • Controlli browser di basso livello tra cui azioni click, type, select, press, hover, scroll e mouse per l’interazione diretta con le pagine.
  • Comandi di debug per seguire l’output di rete e console durante una sessione, utili per ispezionare richieste, risposte, avvisi ed errori di runtime.
  • Supporto predefinito per Chromium locale, con la possibilità di prefissare i comandi con cloud per usare sessioni remote e le API di Browserbase.
  • Output strutturati dalle skill specifiche del sito, come URL canonici, campi di stato, finestre temporali, valutazioni o altri dati della pagina mostrati negli esempi del catalogo.

Come usare browse.sh

Inizia installando la CLI con npm, poi usa browse skills add per installare le skill pertinenti ai siti web di tuo interesse. Dopo di che, guida le pagine con i comandi del browser per fare clic, digitare, selezionare e scorrere, oppure usa le voci del catalogo come ricette pronte per i siti noti.

Se devi ispezionare il comportamento, segui l’output di rete o della console per la sessione attiva. Per i flussi remoti, usa il prefisso cloud per creare una sessione Browserbase o chiamarne le API di search e fetch.

Casi d’uso

  • Un agente AI ha bisogno di una ricetta specifica per completare un flusso ripetitivo su un sito, come prenotare un corso o cercare un sito di viaggi.
  • Uno sviluppatore vuole automatizzare un’attività del browser mantenendo il controllo sulle interazioni con la pagina tramite comandi espliciti e selector.
  • Un utente sta debuggando una web app e deve osservare le chiamate di rete e l’output della console mentre la sessione è in esecuzione.
  • Un flusso deve passare dall’automazione browser locale a una sessione remota senza cambiare lo stile complessivo dei comandi.
  • Un team vuole un catalogo di skill riutilizzabile, condivisibile tra agenti, invece di ricreare prompt per ogni sito.

FAQ

Cosa fornisce browse.sh? Fornisce un catalogo aperto di skill per l’automazione del browser più una CLI per eseguire azioni del browser, debuggare sessioni e usare flussi basati su cloud.

Funziona solo con browser locali? No. La pagina dice che i comandi funzionano nativamente con Chromium locale e che le sessioni remote sono disponibili prefissando i comandi con cloud.

Che cos’è una browser skill in questo contesto? Una skill è una ricetta riutilizzabile, descritta come SKILL.md, che insegna a un agente AI come completare un’attività su un sito web specifico.

browse.sh supporta il debug? Sì. Il sito evidenzia il tailing di rete e console, così agenti e persone possono osservare in tempo reale cosa sta facendo la pagina.

Le voci del catalogo sono tutte strumenti interattivi? Non necessariamente. La pagina mostra un mix di voci basate su API, basate su browser e ibride, quindi la modalità di interazione dipende dalla skill specifica.

Alternative

  • Framework generici di automazione del browser come Playwright o Puppeteer, orientati a scriptare direttamente il comportamento del browser invece di fornire un catalogo di skill riutilizzabili.
  • Strumenti di orchestrazione agente/browser che si concentrano sul prendere istruzioni in linguaggio naturale e tradurle in azioni web, spesso senza un marketplace pubblico di skill.
  • Bot browser o flussi di scraping specifici per attività, che possono risolvere bene un sito o un workflow, ma non offrono un catalogo condiviso di ricette riutilizzabili.
  • Piattaforme di browser cloud, che enfatizzano l’infrastruttura browser ospitata e la gestione delle sessioni, mentre browse.sh combina controllo del browser con un catalogo di skill e un flusso CLI.