browse.sh
browse.sh est un catalogue ouvert de compétences d’automatisation du navigateur et un CLI pour que les agents IA contrôlent des sites web, inspectent les sessions et utilisent des workflows locaux ou cloud.
Qu’est-ce que browse.sh ?
browse.sh est un catalogue ouvert de compétences d’automatisation du navigateur et un browser CLI pour les agents IA. Il combine des compétences réutilisables spécifiques à des sites web avec des primitives de navigateur de plus bas niveau, des outils de débogage et des sessions cloud, afin que les agents puissent interagir avec les sites web et les applications web de manière structurée.
Le catalogue est organisé autour de recettes SKILL.md pour des domaines et des tâches spécifiques. Le site affiche aussi des exemples de commandes pour ajouter des compétences, contrôler des pages via des sélecteurs et des références d’accessibilité, निरीpecter les sorties réseau et console, et passer de Chromium local à des sessions Browserbase distantes.
Fonctionnalités clés
- Catalogue ouvert de compétences d’automatisation du navigateur pour des sites web et des tâches spécifiques, avec des entrées comme la recherche de contrats, la réservation de cours, le statut de vols, les avis et la recherche de sentiers.
- Workflow
browse skills addpour installer des recettes de compétences réutilisables qui apprennent aux agents IA à effectuer des actions sur des sites web. - Contrôles de navigateur de bas niveau, notamment les actions
click,type,select,press,hover,scrolletmousepour une interaction directe avec la page. - Commandes de débogage pour suivre en continu les sorties réseau et console pendant une session, ce qui aide à inspecter les requêtes, les réponses, les avertissements et les erreurs d’exécution.
- Prise en charge de Chromium local par défaut, avec la possibilité de préfixer les commandes par
cloudpour utiliser des sessions distantes et les API Browserbase. - Sorties structurées issues de compétences spécifiques à des sites, comme des URL canoniques, des champs d’état, des plages horaires, des notes ou d’autres données de page affichées dans les exemples du catalogue.
Comment utiliser browse.sh
Commencez par installer le CLI avec npm, puis utilisez browse skills add pour installer les compétences pertinentes pour vos sites cibles. Ensuite, pilotez les pages avec les commandes du navigateur pour cliquer, saisir du texte, sélectionner et faire défiler, ou utilisez les entrées du catalogue comme recettes prêtes à l’emploi pour les sites connus.
Si vous devez inspecter le comportement, suivez le réseau ou la console de la session active. Pour les workflows distants, utilisez le préfixe cloud pour créer une session Browserbase ou appeler ses API de recherche et de récupération.
Cas d’usage
- Un agent IA a besoin d’une recette spécifique à un domaine pour terminer un workflow répétitif sur un site web, comme réserver un cours ou rechercher un site de voyage.
- Un développeur veut automatiser une tâche de navigateur tout en gardant le contrôle des interactions avec la page via des commandes explicites et des sélecteurs.
- Un utilisateur débogue une application web et doit surveiller les appels réseau et la sortie console pendant l’exécution de la session.
- Un workflow doit passer de l’automatisation locale du navigateur à une session distante sans modifier le style global des commandes.
- Une équipe veut un catalogue de compétences réutilisables, partageable entre agents, au lieu de reconstruire des prompts pour chaque site web.
FAQ
Que fournit browse.sh ?
Il fournit un catalogue ouvert de compétences d’automatisation du navigateur ainsi qu’un CLI pour exécuter des actions de navigateur, déboguer des sessions et gérer des workflows basés sur le cloud.
Fonctionne-t-il uniquement avec des navigateurs locaux ?
Non. La page indique que les commandes fonctionnent nativement avec Chromium local, et que des sessions distantes sont disponibles en préfixant les commandes avec cloud.
Qu’est-ce qu’une compétence de navigateur dans ce contexte ?
Une compétence est une recette réutilisable, décrite comme SKILL.md, qui apprend à un agent IA comment accomplir une tâche sur un site web spécifique.
browse.sh prend-il en charge le débogage ?
Oui. Le site met en avant le suivi du réseau et de la console afin que les agents et les humains puissent observer en temps réel ce que fait la page.
Les entrées du catalogue sont-elles toutes des outils interactifs ?
Pas nécessairement. La page montre un mélange d’entrées basées sur des API, sur le navigateur et hybrides, donc le mode d’interaction dépend de la compétence concernée.
Alternatives
- Des frameworks généraux d’automatisation du navigateur comme Playwright ou Puppeteer, orientés vers le script direct du comportement du navigateur plutôt que vers un catalogue de compétences réutilisables.
- Des outils d’orchestration agent/navigateur qui se concentrent sur la traduction d’instructions en langage naturel en actions web, souvent sans place de marché publique de compétences.
- Des bots de navigateur ou workflows de scraping dédiés à une tâche, qui peuvent bien résoudre un site ou un workflow, mais ne fournissent pas de catalogue partagé de recettes de site réutilisables.
- Des plateformes de navigateur cloud, qui mettent l’accent sur l’infrastructure de navigateur hébergée et la gestion des sessions, tandis que browse.sh combine le contrôle du navigateur avec un catalogue de compétences et un workflow CLI.
Alternatives
AakarDev AI
AakarDev AI est une plateforme puissante qui simplifie le développement d'applications d'IA avec une intégration fluide des bases de données vectorielles, permettant un déploiement rapide et une évolutivité.
Arduino VENTUNO Q
Arduino VENTUNO Q : ordinateur edge IA pour la robotique, combinant inférence accélérée et microcontrôleur pour un contrôle déterministe. Arduino App Lab.
Devin
Devin est un agent de codage IA qui automatise des sous-tâches en parallèle pour des migrations et gros refactors, sous contrôle humain et validation.
open-codex-computer-use
open-codex-computer-use est un service « Computer Use » open source : un serveur MCP pour automatiser des actions GUI d’IA sur macOS, Linux et Windows.
Codex Plugins
Utilisez Codex Plugins pour regrouper des skills, intégrations d’app et serveurs MCP en workflows réutilisables afin d’étendre l’accès à Gmail, Google Drive et Slack.
Ably Chat
Ably Chat : API et SDK de chat temps réel pour créer des applications personnalisées, avec réactions, présence et édition/suppression de messages.