browse.sh

Was ist browse.sh?

browse.sh ist ein offener Katalog für Browser-Automatisierungs-Skills und eine Browser-CLI für KI-Agenten. Es kombiniert wiederverwendbare website-spezifische Skills mit niedrigstufigen Browser-Primitiven, Debugging-Tools und Cloud-Sessions, damit Agenten auf strukturierte Weise mit Websites interagieren können.

Der Katalog ist rund um SKILL.md-Rezepte für bestimmte Bereiche und Aufgaben organisiert. Die Site zeigt außerdem Beispielbefehle zum Hinzufügen von Skills, zum Steuern von Seiten über Selektoren und Accessibility-Referenzen, zum Prüfen von Netzwerk- und Konsolen-Ausgaben sowie zum Wechseln zwischen lokalem Chromium und entfernten Browserbase-Sessions.

Hauptfunktionen

Offener Katalog für Browser-Automatisierungs-Skills für bestimmte Websites und Aufgaben, mit Einträgen wie Vertragsrecherche, Kursbuchung, Flugstatus, Bewertungen und Trail-Suche.
Workflow browse skills add zum Installieren wiederverwendbarer Skill-Rezepte, die KI-Agenten beibringen, wie sie Website-Aktionen ausführen.
Niedrigstufige Browser-Steuerung mit click, type, select, press, hover, scroll und mouse für direkte Interaktion mit Seiten.
Debugging-Befehle zum Mitlesen von Netzwerk- und Konsolen-Ausgaben während einer Session, um Anfragen, Antworten, Warnungen und Laufzeitfehler zu prüfen.
Unterstützung für lokales Chromium standardmäßig, mit der Option, Befehle mit cloud zu prefixen, um entfernte Sessions und Browserbase-APIs zu nutzen.
Strukturierte Ausgaben aus website-spezifischen Skills, etwa kanonische URLs, Statusfelder, Zeitfenster, Bewertungen oder andere in den Katalogbeispielen gezeigte Seitendaten.

So verwendest du browse.sh

Beginne mit der Installation der CLI über npm und verwende dann browse skills add, um die für deine Ziel-Websites relevanten Skills zu installieren. Danach steuerst du Seiten mit den Browser-Befehlen zum Klicken, Tippen, Auswählen und Scrollen oder nutzt die Katalogeinträge als sofort einsatzbereite Rezepte für bekannte Sites.

Wenn du das Verhalten prüfen musst, verfolge Netzwerk oder Konsole der aktiven Session. Für Remote-Workflows verwendest du das Präfix cloud, um eine Browserbase-Session zu erstellen oder deren Search- und Fetch-APIs aufzurufen.

Anwendungsfälle

Ein KI-Agent braucht ein domänenspezifisches Rezept, um einen wiederkehrenden Website-Workflow abzuschließen, etwa eine Kursbuchung oder die Suche auf einer Reise-Website.
Ein Entwickler möchte eine Browseraufgabe automatisieren und dabei die Kontrolle über Seiteninteraktionen durch explizite Befehle und Selektoren behalten.
Ein Nutzer debuggt eine Web-App und muss Netzwerkaufrufe und Konsolenausgaben beobachten, während die Session läuft.
Ein Workflow muss von lokaler Browser-Automatisierung zu einer Remote-Session wechseln, ohne den allgemeinen Befehlsstil zu ändern.
Ein Team möchte einen wiederverwendbaren Skill-Katalog, der mit Agenten geteilt werden kann, statt Prompts für jede Website neu zu bauen.

FAQ

Was bietet browse.sh? Es bietet einen offenen Katalog für Browser-Automatisierungs-Skills plus eine CLI zum Ausführen von Browser-Aktionen, zum Debuggen von Sessions und für cloudbasierte Workflows.

Funktioniert es nur mit lokalen Browsern? Nein. Die Seite sagt, dass Befehle nativ mit lokalem Chromium funktionieren und Remote-Sessions verfügbar sind, wenn Befehle mit cloud prefixiert werden.

Was ist ein Browser-Skill in diesem Zusammenhang? Ein Skill ist ein wiederverwendbares Rezept, beschrieben als SKILL.md, das einem KI-Agenten beibringt, wie er eine Aufgabe auf einer bestimmten Website erledigt.

Unterstützt browse.sh Debugging? Ja. Die Site hebt das Mitlesen von Netzwerk und Konsole hervor, damit Agenten und Menschen in Echtzeit sehen können, was die Seite tut.

Sind alle Katalogeinträge interaktive Tools? Nicht unbedingt. Die Seite zeigt eine Mischung aus API-gestützten, browserbasierten und hybriden Einträgen, daher hängt der Interaktionsmodus vom jeweiligen Skill ab.

Alternativen

Allgemeine Browser-Automatisierungs-Frameworks wie Playwright oder Puppeteer, die darauf ausgerichtet sind, Browserverhalten direkt zu skripten, statt einen Katalog wiederverwendbarer Skills bereitzustellen.
Agenten-/Browser-Orchestrierungs-Tools, die natürliche Sprachbefehle entgegennehmen und in Webaktionen übersetzen, oft ohne öffentlichen Skill-Marktplatz.
Aufgabenspezifische Browser-Bots oder Scraping-Workflows, die möglicherweise eine Site oder einen Workflow sehr gut lösen, aber keinen gemeinsamen Katalog wiederverwendbarer Website-Rezepte bieten.
Cloud-Browser-Plattformen, die gehostete Browser-Infrastruktur und Session-Management betonen, während browse.sh Browser-Steuerung mit einem Skill-Katalog und CLI-Workflow kombiniert.

browse.sh

Was ist browse.sh?

Hauptfunktionen

So verwendest du browse.sh

Anwendungsfälle

FAQ

Alternativen

Alternativen

AakarDev AI

Arduino VENTUNO Q

Devin

open-codex-computer-use

Codex Plugins

Ably Chat