browse.sh
browse.shは、ブラウザ自動化スキルのオープンカタログと、AIエージェントがWebサイトを操作し、セッションを確認し、ローカルまたはクラウドのブラウザワークフローを使えるCLIです。サイト別の手順を再利用できます。
browse.shとは?
browse.shは、ブラウザ自動化スキルのオープンカタログと、AIエージェント向けのブラウザCLIです。再利用可能なサイト固有のスキルに、低レベルのブラウザプリミティブ、デバッグツール、クラウドセッションを組み合わせ、エージェントがWebサイトやWebアプリと構造化された方法で対話できるようにします。
カタログは、特定のドメインやタスク向けの SKILL.md レシピを中心に整理されています。サイトには、スキルの追加、セレクタやアクセシビリティ参照によるページ操作、ネットワークやコンソール出力の確認、ローカルの Chromium とリモートの Browserbase セッションの切り替えに関するコマンド例も掲載されています。
主な機能
- 特定のWebサイトやタスク向けのブラウザ自動化スキルのオープンカタログ。契約検索、クラス予約、フライト状況、レビュー、トレイル検索などの項目を含みます。
- AIエージェントにWebサイト操作の完了方法を教える再利用可能なスキルレシピをインストールする
browse skills addワークフロー。 - ページを直接操作するための
click、type、select、press、hover、scroll、mouseといった低レベルのブラウザ操作。 - セッション中のネットワークやコンソール出力を追跡するデバッグコマンド。リクエスト、レスポンス、警告、実行時エラーの確認に役立ちます。
- デフォルトではローカルの Chromium をサポートし、コマンドの先頭に
cloudを付けることでリモートセッションと Browserbase API を利用可能。 - カタログの例で示される、正規URL、ステータス欄、時間帯、評価、その他のページデータなど、サイト固有スキルからの構造化出力。
browse.shの使い方
まず npm で CLI をインストールし、続けて対象サイトに関連するスキルを browse skills add で追加します。その後は、クリック、 টাইピング、選択、スクロール用のブラウザコマンドでページを操作するか、既知のサイト向けに用意されたレシピとしてカタログの項目を使います。
挙動を確認したい場合は、アクティブなセッションのネットワークまたはコンソールを追跡します。リモートのワークフローでは、cloud プレフィックスを使って Browserbase セッションを作成するか、その search と fetch API を呼び出します。
ユースケース
- AIエージェントが、クラス予約や旅行サイト検索のような繰り返しのWebワークフローを完了するために、ドメイン固有のレシピを必要としている。
- 開発者が、明示的なコマンドとセレクタを通じてページ操作を制御しながら、ブラウザタスクを自動化したい。
- ユーザーがWebアプリをデバッグしており、セッション実行中のネットワーク呼び出しやコンソール出力を監視したい。
- ワークフローをローカルのブラウザ自動化からリモートセッションへ、全体のコマンドスタイルを変えずに移行したい。
- チームが、各サイトごとにプロンプトを作り直す代わりに、エージェント間で共有できる再利用可能なスキルカタログを求めている。
FAQ
browse.shは何を提供しますか? ブラウザ操作の実行、セッションのデバッグ、クラウドベースのワークフローを行うための CLI に加えて、ブラウザ自動化スキルのオープンカタログを提供します。
ローカルブラウザでしか使えませんか?
いいえ。ページでは、コマンドはローカルの Chromium でネイティブに動作し、cloud を付けることでリモートセッションも利用できると案内しています。
この文脈でのブラウザスキルとは何ですか?
スキルとは、SKILL.md で記述された再利用可能なレシピで、AIエージェントに特定のWebサイト上でタスクを完了する方法を教えるものです。
browse.sh はデバッグをサポートしますか? はい。サイトではネットワークとコンソールの追跡を強調しており、エージェントと人間がページの動作をリアルタイムで確認できます。
カタログの項目はすべて対話型ツールですか? 必ずしもそうではありません。ページには API ベース、ブラウザベース、ハイブリッドの項目が混在しており、操作方法は各スキルによって異なります。
代替手段
- Playwright や Puppeteer のような一般的なブラウザ自動化フレームワーク。再利用可能なスキルのカタログを提供するのではなく、ブラウザの挙動を直接スクリプト化することに重点があります。
- 自然言語の指示をWeb操作に変換することに特化したエージェント/ブラウザオーケストレーションツール。多くの場合、公開されたスキルマーケットプレイスはありません。
- 特定のタスク向けのブラウザボットやスクレイピングワークフロー。1つのサイトや1つのワークフローには強いものの、再利用可能なサイトレシピの共有カタログは提供しません。
- クラウドブラウザプラットフォーム。ホスト型のブラウザ基盤とセッション管理を重視する一方で、browse.sh はブラウザ制御とスキルカタログ、CLI ワークフローを組み合わせています。
代替品
AakarDev AI
AakarDev AIは、シームレスなベクターデータベース統合を通じてAIアプリケーションの開発を簡素化し、迅速な展開とスケーラビリティを実現する強力なプラットフォームです。
Arduino VENTUNO Q
Arduino VENTUNO Qはロボット向けエッジAIコンピュータ。AI推論とマイコン制御を統合し、Arduino App Labで埋め込み/ Linux/エッジAI開発。
Devin
Devinは、AIコーディングエージェントとして移行や大規模リファクタのサブタスクを並列実行。人が管理し変更を承認。
open-codex-computer-use
open-codex-computer-use は、MCPサーバーで「Computer Use」機能を提供するオープンソース。macOS/Linux/WindowsでGUI操作を実行可能。
Codex Plugins
Codex Pluginsでスキル、アプリ連携、MCPサーバーを再利用可能なワークフローにまとめ、Gmail・Google Drive・Slack等のツールにアクセス。
Ably Chat
Ably Chatはカスタムリアルタイムチャット用のAPI/SDK。リアクション、プレゼンス、メッセージ編集/削除に対応し高負荷も設計。