Long Horizonとは?
Long Horizonは、コーディングエージェントがウェブアプリケーションのブラウザベーステストを計画・作成・実行するエージェント型フロントエンドテストツールです。主な目的は、チームが実ブラウザで機能を検証し、レビュー可能な証拠で問題を明らかにすることです。
テストを生成するだけでなく、Long Horizonは実ブラウザセッションでテストを実行し、共有可能な実行レポートを生成します。これらのレポートには実行ログとスクリーンショットやネットワーク詳細などの添付ファイルが含まれ、デバッグと再現可能なテスト実行をサポートします。
主な機能
- 機能とリポジトリコンテキストからのエージェント駆動テスト計画
- エージェントが機能とリポジトリ入力に基づき、テスト内容(コアパス、エッジケース、失敗シナリオ)をドラフトします。
- 自動化されたブラウザベーステスト実行
- 実ブラウザでテストを実行するため、アサーションが実際のUI動作とネットワーク相互作用を反映します。
- ログと添付ファイル付き共有実行レポート
- レビュー向けに設計された出力で、実行ログとスクリーンショットなどのアーティファクトを含みます。
- 信頼性が高く再現可能な実行
- ワークフローは繰り返し可能なセッションを重視し、失敗を再訪・理解しやすくします。
- プロジェクトテストファイルへのテスト作成
- エージェントがプロジェクトにテストを書き込みます(例: 複数のチェックアウト関連テストファイル)。
- 失敗テスト向けデバッグワークフロー
- 実行が失敗した場合、エージェントが問題を特定し変更を提案;開発者はログをレビューし、複雑なシナリオを支援できます。
- 手動確認のためのスローモード/ステップモード
- 失敗時や複雑なフローの動作を開発者が観察できるモードで実行可能です。
- エージェント変更を導くUIフィードバック
- ユーザーがUI上で要素レベルコメントを直接残せ、エージェントがスクリーンショットや要素HTMLなどのコンテキストを活用します。
Long Horizonの使い方
- 開発中の機能から始め、エージェントに該当リポジトリコンテキストを提供します。
- エージェントに機能のテスト計画(ハッピーパス、エッジケース、エラーシナリオを含む)をドラフトさせます。
- エージェントにプロジェクトにテストを書き込ませ、実ブラウザでテストを実行します。
- 生成された実行レポート(ログと添付スクリーンショットを含む)をレビューします。
- テストが失敗した場合、デバッグワークフローを使い—失敗出力をレビューし、エージェントに修正を提案させ、再実行します。
提供例では、チェックアウトシナリオの計画(例: 「checkout — happy path」「cart — empty checkout blocked」「payment — decline and retry」)、ブラウザセッションでの実行、確認IDやDOM表示などのアサーション検証を含みます。
ユースケース
- ログイン済みユーザーのチェックアウトハッピーパス回帰テスト
- ログイン済みユーザーが購入を完了するエージェント計画シナリオを実行し、確認ルートが期待される識別子(例: 注文IDとDOM内のメール)をレンダリングすることを検証します。
- カートが空時のチェックアウト防止
- カートが空の場合にチェックアウトCTAが無効のまま残り、支払い関連ネットワークコールがトリガーされないことを検証します。
- カード拒否と再試行フロー対応
- カード拒否をシミュレートし、インラインエラーが表示されることを確認、支払い方法変更で注文を正常完了できることを検証します。
- ゲストチェックアウトとメールのみ支払いフロー
- アカウントなしで進むチェックアウトシナリオを確認し、支払い前の事前チェック(ソース記載の詐欺チェックなど)が発生することを保証します。
- 複雑フローでの失敗デバッグと修正
- 予期せぬブロック条件(例: 在庫ゲーティングによるチェックアウト失敗)でブラウザテストが失敗した場合、ログで問題を特定し、モック/スタブ(在庫可用性など)を更新して再実行します。
FAQ
Long Horizonはテストを生成するのか、それとも実行のみか?
両方です。エージェントがテスト計画を作成し、プロジェクト内でテストを執筆し、その後実ブラウザで実行します。
テスト実行後にLong Horizonはどのような出力を作成しますか?
実行レポートは共有可能で、完全な実行ログとスクリーンショットなどの添付ファイルを含み、ネットワーク情報などの追加詳細が記載されています。
開発者は障害をレビューし、シナリオをステップ実行できますか?
はい。ワークフローは実行ログの開発者レビューを含み、スローモードやステップモードなどの手動検査オプションがあります。
エージェントのデバッグはどのように機能しますか?
テストが失敗すると、エージェントが障害箇所を特定し修正を提案します。開発者はモック(例: 在庫)を調整して同じテストを再実行するなど支援できます。
チームメンバーは修正中にエージェントにどのようにガイダンスを提供できますか?
UIフィードバックインターフェースでUI要素にコメントを残せます。エージェントはスクリーンショット、コメント、要素HTMLを使用します。
代替案
- 従来のフロントエンドE2Eテストフレームワーク
- E2Eカテゴリのツールはブラウザテストを実行できますが、通常はエージェント駆動の計画・執筆・実行ではなく、手動でのテスト計画と執筆を多く必要とします。
- スクリプト化されたQAテストスイートと手動トリアージ
- チームはスクリプトテストを作成・実行しログでデバッグできますが、Long Horizonは計画・執筆・デバッグのエージェント支援ワークフローを重視します。
- 実ブラウザ実行なしでテストを生成するエージェントワークフローツール
- 一部の手法はテストコードやレポート生成に焦点を当てますが、Long Horizonはレビュー可能な実行レポート付きの実ブラウザ実行に特化しています。
- CIベースのブラウザテストパイプライン
- CIセットアップはブラウザテストを繰り返し実行できますが、Long Horizonはエージェントテスト作成と共有実行レポートを中心に機能配信とデバッグを支援します。
代替品
PromptLayer
PromptLayerはプロンプトやAIエージェントをバージョン管理・テスト。evals/トレーシング/回帰セットで挙動を可視化し、共同編集も可能。
Evidently AI
Evidently AIは、本番AIシステムのテストと監視を行うAI評価・LLMオブザーバビリティ。LLM評価やRAG検証、継続的な性能追跡に対応。
Crikket
Crikket:オープンソースのバグレポートツール。技術詳細を即座にキャプチャ・共有し、迅速な問題解決を支援。チーム開発を効率化。
Roo Code
Roo Codeはエディタ内とクラウドエージェントでAI開発チームを提供。役割別ModesとGitHub連携でコーディング・デバッグ・テストを支援。
Logic
Logicは、仕様を基にAIエージェントを本番API化。テスト、バージョニング、モデルルーティング、実行ログまで標準搭載。
TestLaunch Pro
TestLaunch Proは有料のアプリテスト市場。Google Playクローズドテストの参加者を募集し、テスターはアプリ入手・共有・PayPal精算で報酬化。