UStackUStack
Browser Arena icon

Browser Arena

Browser Arenaはオープンソースの再現可能ベンチマークで、AIブラウザエージェント/自動化向けにクラウド環境の速度・信頼性・コストを比較。

Browser Arena

Browser Arenaとは?

Browser Arenaは、オープンソースで再現可能なベンチマークサイトで、クラウドブラウザインフラプロバイダの速度、信頼性、コストを比較します。ウェブ自動化およびAIブラウザエージェントワークフローのために、統一されたテーブルで評価を提示します。

プロジェクトはNotteによって構築され、オープンソースベンチマークとしてホストされており(Railway経由を含む再現性)、プロバイダやベンチマークの追加が可能です。

主な機能

  • オープンソースのベンチマークデータと評価フレームワーク: サイトは明示的にオープンソースであり、比較の生成方法の透明性をサポートします。
  • 再現可能な結果: ベンチマークはRailway上で再現可能で、チームが評価を再実行または検証できます。
  • 3つの次元での標準化スコアリング: 結果は信頼性、レイテンシ(速度)、コストに均等に重点を置いたバリュースコアで整理されます。
  • 地域、実行回数、指標付きプロバイダ比較テーブル: 各プロバイダエントリには、地域、実行回数、信頼性パーセンテージ、ミリ秒単位のレイテンシ、時間あたりのコストが含まれます。
  • ベンチマークセットを拡張するユーザーアクション: UIには「Add a Provider」と「Add a Bench」のプロンプトがあり、拡張可能なベンチマークカタログを示します。

Browser Arenaの使い方

  • 既存のプロバイダ評価を閲覧: 比較テーブルを確認して、リストされたプロバイダの信頼性、レイテンシ、コストを確認します。
  • バリュースコアをクイックフィルタとして使用: 信頼性、レイテンシ、コストを反映した表示バリュースコアでプロバイダを比較します。
  • ベンチマークを維持する場合、再現する: プロジェクトの「reproduce」ワークフロー(Railway上で再現可能)を使用して評価を実行または検証します。
  • ベンチマークリストを拡張: 追加のカバレッジが必要な場合、「Add a Provider」または「Add a Bench」を使用して新しい比較を貢献します。

ユースケース

  • 自動化向けクラウドブラウザプロバイダの選択: 信頼性とレイテンシ要件に最適なインフラを決める際にテーブルでプロバイダを比較します。
  • 速度とコストのバランス: レイテンシ(ms)と時間あたりのコストを並べて比較し、パフォーマンスと予算の両方に適合するプロバイダを選択します。
  • エージェントワークフロー向け信頼性の検証: 信頼性パーセンテージを確認して、長時間実行や繰り返しウェブ自動化タスクで障害の少ないプロバイダを特定します。
  • 内部決定のための再現可能評価の実行: 繰り返し結果を必要とするチームは、再現設定を使用してベンチマークを再実行し、プロバイダパフォーマンスの安定性を確認します。
  • 新しいベンチマークやプロバイダの貢献: 独自の評価基準を構築する場合、プロバイダやベンチを追加して、他者が同じフレームワークで結果を比較できるようにします。

FAQ

  • Browser Arenaはオープンソースですか? はい。ページでオープンソースと記載されています。

  • ベンチマークは再現可能ですか? サイトではRailway上で再現可能と記載されています。

  • Browser Arenaが比較する指標は何ですか? テーブルは信頼性、レイテンシ(ミリ秒単位)、コスト(時間あたり)を比較し、バリュースコアを表示します。

  • 「value score」はどのように決定されますか? ページではバリュースコアが信頼性、速度(レイテンシ)、予算/コストでバランスされ、各33%と記載されています。

  • 自分のプロバイダやベンチマークを追加できますか? UIにプロバイダ追加とベンチ追加のオプションがあり、ページで貢献を奨励しています。

代替案

  • マネージドブラウザ自動化プラットフォーム(汎用): 標準化比較ベンチマークテーブルを公開するのではなく、直接ブラウザ自動化を実行するために使用されます。
  • 独自の内部ベンチマークハーネス: 公開比較サイトに頼らず、チームが特定ワークロード向けテストを定義し、自社環境で信頼性/レイテンシ/コストを測定します。
  • インフラ向け他のオープンソースベンチマークリポジトリ: 隣接プロジェクトは異なるシステム(例: コンピュート、ネットワーキング、汎用ブラウザテスト)に焦点を当てる場合があり、同じプロバイダ中心の速度/信頼性/コスト比較レイアウトを提供しない可能性があります。
  • クラウドパフォーマンステストフレームワーク: このカテゴリのツールは応答性と障害率を測定できますが、ブラウザ自動化向けプロバイダ比較に結果を変換するにはより多くの設定が必要です。
Browser Arena | UStack