browse.sh icon

browse.sh

browse.shは、ブラウザ自動化スキルのオープンカタログと、AIエージェントがWebサイトを操作し、セッションを確認し、ローカルまたはクラウドのブラウザワークフローを使えるCLIです。サイト別の手順を再利用できます。

browse.sh

browse.shとは?

browse.shは、ブラウザ自動化スキルのオープンカタログと、AIエージェント向けのブラウザCLIです。再利用可能なサイト固有のスキルに、低レベルのブラウザプリミティブ、デバッグツール、クラウドセッションを組み合わせ、エージェントがWebサイトやWebアプリと構造化された方法で対話できるようにします。

カタログは、特定のドメインやタスク向けの SKILL.md レシピを中心に整理されています。サイトには、スキルの追加、セレクタやアクセシビリティ参照によるページ操作、ネットワークやコンソール出力の確認、ローカルの Chromium とリモートの Browserbase セッションの切り替えに関するコマンド例も掲載されています。

主な機能

  • 特定のWebサイトやタスク向けのブラウザ自動化スキルのオープンカタログ。契約検索、クラス予約、フライト状況、レビュー、トレイル検索などの項目を含みます。
  • AIエージェントにWebサイト操作の完了方法を教える再利用可能なスキルレシピをインストールする browse skills add ワークフロー。
  • ページを直接操作するための clicktypeselectpresshoverscrollmouse といった低レベルのブラウザ操作。
  • セッション中のネットワークやコンソール出力を追跡するデバッグコマンド。リクエスト、レスポンス、警告、実行時エラーの確認に役立ちます。
  • デフォルトではローカルの Chromium をサポートし、コマンドの先頭に cloud を付けることでリモートセッションと Browserbase API を利用可能。
  • カタログの例で示される、正規URL、ステータス欄、時間帯、評価、その他のページデータなど、サイト固有スキルからの構造化出力。

browse.shの使い方

まず npm で CLI をインストールし、続けて対象サイトに関連するスキルを browse skills add で追加します。その後は、クリック、 টাইピング、選択、スクロール用のブラウザコマンドでページを操作するか、既知のサイト向けに用意されたレシピとしてカタログの項目を使います。

挙動を確認したい場合は、アクティブなセッションのネットワークまたはコンソールを追跡します。リモートのワークフローでは、cloud プレフィックスを使って Browserbase セッションを作成するか、その search と fetch API を呼び出します。

ユースケース

  • AIエージェントが、クラス予約や旅行サイト検索のような繰り返しのWebワークフローを完了するために、ドメイン固有のレシピを必要としている。
  • 開発者が、明示的なコマンドとセレクタを通じてページ操作を制御しながら、ブラウザタスクを自動化したい。
  • ユーザーがWebアプリをデバッグしており、セッション実行中のネットワーク呼び出しやコンソール出力を監視したい。
  • ワークフローをローカルのブラウザ自動化からリモートセッションへ、全体のコマンドスタイルを変えずに移行したい。
  • チームが、各サイトごとにプロンプトを作り直す代わりに、エージェント間で共有できる再利用可能なスキルカタログを求めている。

FAQ

browse.shは何を提供しますか? ブラウザ操作の実行、セッションのデバッグ、クラウドベースのワークフローを行うための CLI に加えて、ブラウザ自動化スキルのオープンカタログを提供します。

ローカルブラウザでしか使えませんか? いいえ。ページでは、コマンドはローカルの Chromium でネイティブに動作し、cloud を付けることでリモートセッションも利用できると案内しています。

この文脈でのブラウザスキルとは何ですか? スキルとは、SKILL.md で記述された再利用可能なレシピで、AIエージェントに特定のWebサイト上でタスクを完了する方法を教えるものです。

browse.sh はデバッグをサポートしますか? はい。サイトではネットワークとコンソールの追跡を強調しており、エージェントと人間がページの動作をリアルタイムで確認できます。

カタログの項目はすべて対話型ツールですか? 必ずしもそうではありません。ページには API ベース、ブラウザベース、ハイブリッドの項目が混在しており、操作方法は各スキルによって異なります。

代替手段

  • Playwright や Puppeteer のような一般的なブラウザ自動化フレームワーク。再利用可能なスキルのカタログを提供するのではなく、ブラウザの挙動を直接スクリプト化することに重点があります。
  • 自然言語の指示をWeb操作に変換することに特化したエージェント/ブラウザオーケストレーションツール。多くの場合、公開されたスキルマーケットプレイスはありません。
  • 特定のタスク向けのブラウザボットやスクレイピングワークフロー。1つのサイトや1つのワークフローには強いものの、再利用可能なサイトレシピの共有カタログは提供しません。
  • クラウドブラウザプラットフォーム。ホスト型のブラウザ基盤とセッション管理を重視する一方で、browse.sh はブラウザ制御とスキルカタログ、CLI ワークフローを組み合わせています。