browse.sh
browse.sh ist ein offener Katalog für Browser-Automatisierungs-Skills und eine CLI für KI-Agenten, um Websites zu steuern, Sessions zu prüfen und Browser-Workflows lokal oder in der Cloud zu nutzen.
Was ist browse.sh?
browse.sh ist ein offener Katalog für Browser-Automatisierungs-Skills und eine Browser-CLI für KI-Agenten. Es kombiniert wiederverwendbare website-spezifische Skills mit niedrigstufigen Browser-Primitiven, Debugging-Tools und Cloud-Sessions, damit Agenten auf strukturierte Weise mit Websites interagieren können.
Der Katalog ist rund um SKILL.md-Rezepte für bestimmte Bereiche und Aufgaben organisiert. Die Site zeigt außerdem Beispielbefehle zum Hinzufügen von Skills, zum Steuern von Seiten über Selektoren und Accessibility-Referenzen, zum Prüfen von Netzwerk- und Konsolen-Ausgaben sowie zum Wechseln zwischen lokalem Chromium und entfernten Browserbase-Sessions.
Hauptfunktionen
- Offener Katalog für Browser-Automatisierungs-Skills für bestimmte Websites und Aufgaben, mit Einträgen wie Vertragsrecherche, Kursbuchung, Flugstatus, Bewertungen und Trail-Suche.
- Workflow
browse skills addzum Installieren wiederverwendbarer Skill-Rezepte, die KI-Agenten beibringen, wie sie Website-Aktionen ausführen. - Niedrigstufige Browser-Steuerung mit
click,type,select,press,hover,scrollundmousefür direkte Interaktion mit Seiten. - Debugging-Befehle zum Mitlesen von Netzwerk- und Konsolen-Ausgaben während einer Session, um Anfragen, Antworten, Warnungen und Laufzeitfehler zu prüfen.
- Unterstützung für lokales Chromium standardmäßig, mit der Option, Befehle mit
cloudzu prefixen, um entfernte Sessions und Browserbase-APIs zu nutzen. - Strukturierte Ausgaben aus website-spezifischen Skills, etwa kanonische URLs, Statusfelder, Zeitfenster, Bewertungen oder andere in den Katalogbeispielen gezeigte Seitendaten.
So verwendest du browse.sh
Beginne mit der Installation der CLI über npm und verwende dann browse skills add, um die für deine Ziel-Websites relevanten Skills zu installieren. Danach steuerst du Seiten mit den Browser-Befehlen zum Klicken, Tippen, Auswählen und Scrollen oder nutzt die Katalogeinträge als sofort einsatzbereite Rezepte für bekannte Sites.
Wenn du das Verhalten prüfen musst, verfolge Netzwerk oder Konsole der aktiven Session. Für Remote-Workflows verwendest du das Präfix cloud, um eine Browserbase-Session zu erstellen oder deren Search- und Fetch-APIs aufzurufen.
Anwendungsfälle
- Ein KI-Agent braucht ein domänenspezifisches Rezept, um einen wiederkehrenden Website-Workflow abzuschließen, etwa eine Kursbuchung oder die Suche auf einer Reise-Website.
- Ein Entwickler möchte eine Browseraufgabe automatisieren und dabei die Kontrolle über Seiteninteraktionen durch explizite Befehle und Selektoren behalten.
- Ein Nutzer debuggt eine Web-App und muss Netzwerkaufrufe und Konsolenausgaben beobachten, während die Session läuft.
- Ein Workflow muss von lokaler Browser-Automatisierung zu einer Remote-Session wechseln, ohne den allgemeinen Befehlsstil zu ändern.
- Ein Team möchte einen wiederverwendbaren Skill-Katalog, der mit Agenten geteilt werden kann, statt Prompts für jede Website neu zu bauen.
FAQ
Was bietet browse.sh? Es bietet einen offenen Katalog für Browser-Automatisierungs-Skills plus eine CLI zum Ausführen von Browser-Aktionen, zum Debuggen von Sessions und für cloudbasierte Workflows.
Funktioniert es nur mit lokalen Browsern?
Nein. Die Seite sagt, dass Befehle nativ mit lokalem Chromium funktionieren und Remote-Sessions verfügbar sind, wenn Befehle mit cloud prefixiert werden.
Was ist ein Browser-Skill in diesem Zusammenhang?
Ein Skill ist ein wiederverwendbares Rezept, beschrieben als SKILL.md, das einem KI-Agenten beibringt, wie er eine Aufgabe auf einer bestimmten Website erledigt.
Unterstützt browse.sh Debugging? Ja. Die Site hebt das Mitlesen von Netzwerk und Konsole hervor, damit Agenten und Menschen in Echtzeit sehen können, was die Seite tut.
Sind alle Katalogeinträge interaktive Tools? Nicht unbedingt. Die Seite zeigt eine Mischung aus API-gestützten, browserbasierten und hybriden Einträgen, daher hängt der Interaktionsmodus vom jeweiligen Skill ab.
Alternativen
- Allgemeine Browser-Automatisierungs-Frameworks wie Playwright oder Puppeteer, die darauf ausgerichtet sind, Browserverhalten direkt zu skripten, statt einen Katalog wiederverwendbarer Skills bereitzustellen.
- Agenten-/Browser-Orchestrierungs-Tools, die natürliche Sprachbefehle entgegennehmen und in Webaktionen übersetzen, oft ohne öffentlichen Skill-Marktplatz.
- Aufgabenspezifische Browser-Bots oder Scraping-Workflows, die möglicherweise eine Site oder einen Workflow sehr gut lösen, aber keinen gemeinsamen Katalog wiederverwendbarer Website-Rezepte bieten.
- Cloud-Browser-Plattformen, die gehostete Browser-Infrastruktur und Session-Management betonen, während browse.sh Browser-Steuerung mit einem Skill-Katalog und CLI-Workflow kombiniert.
Alternativen
AakarDev AI
AakarDev AI ist eine leistungsstarke Plattform, die die Entwicklung von KI-Anwendungen mit nahtloser Integration von Vektordatenbanken vereinfacht und eine schnelle Bereitstellung und Skalierbarkeit ermöglicht.
Arduino VENTUNO Q
Arduino VENTUNO Q ist ein Edge-AI-Computer für Robotik und physische Systeme: KI-Inferenz mit Microcontroller für deterministische Steuerung. Entwickeln in Arduino App Lab.
Devin
Devin ist ein AI-Coding-Agent für Softwareteams: unterstützt Parallelisierung von Migrations- und Refactoring-Subtasks, während Engineers steuern und Änderungen freigeben.
open-codex-computer-use
open-codex-computer-use: Open-Source „Computer Use“-Service als MCP-Server, um GUI-Aktionen auf macOS, Linux und Windows auszuführen.
Codex Plugins
Mit Codex Plugins bündelst du Skills, App-Integrationen und MCP-Server zu wiederverwendbaren Workflows und erweiterst Codex für Tools wie Gmail, Google Drive und Slack.
Ably Chat
Ably Chat ist eine Chat-API und SDKs für maßgeschneiderte Realtime-Chat-Apps: Reactions, Presence sowie Nachrichten editieren/löschen.