UStackUStack
APIEval-20 icon

APIEval-20

APIEval-20は、ブラックボックス制約でAIエージェントを評価するタスクベンチマーク。20のスキーマ/ペイロード例で実バグ発見を測定します。

APIEval-20

APIEval-20とは?

APIEval-20は、ブラックボックス制約下での実世界APIテストスイート生成を評価するためのタスクベンチマークです。一般的なモデル品質や表面的なスキーマ準拠に焦点を当てるのではなく、APIサーフェスについて推論し、実際にバグを発見するテストを生成できるかを測定します。

各シナリオでは、エージェントにAPIリクエストスキーマとサンプルペイロードのみが与えられます—ソースコードなし、スキーマ以外のドキュメントなし、事前知識なし。生成されたテストスイートはライブ参照実装に対して実行され、テストが暴露するバグを観察します。

主な特徴

  • AIエージェント向けタスクベンチマーク(モデルベンチマークではない): テスト設計とバグ発見というエンドツーエンドのエージェント動作を評価。テキスト生成品質ではない。
  • 実世界ドメインから抽出した20シナリオ: eコマース、決済、認証、ユーザー管理、スケジューリング、通知、検索/フィルタリングパターンをカバー。
  • ブラックボックス入力制約: 各シナリオで正確に2つの入力—(1) JSONスキーマ、(2) サンプルリクエストペイロード—のみ。レスポンススキーマ、実装詳細、エラーメッセージ、変更ログなし。
  • 複雑度別ラベリングのバグスペクトラム: 各シナリオに3〜8個の植え付けバグ。推論複雑度で分類:単純構造問題、中程度フィールド制約違反、複雑多フィールド/ビジネスロジック相互作用。
  • テストスイート出力形式(リクエストのみテストケース): エージェントはテストケースリストを生成。各ケースに短いテスト名と完全な有効JSONリクエストペイロード。期待結果不要。

APIEval-20の使い方

  1. APIEval-20ベンチマークからシナリオを選択. 各シナリオにAPIリクエストJSONスキーマとサンプルペイロードを提供。
  2. AIエージェントにその2入力のみを提供. ベンチマークは実装詳細や追加ドキュメントに頼れないよう設計。
  3. テストスイートを生成: エージェントにテストケースを出力させ、各ケースに人間 readable な名前と完全JSONリクエストペイロードを含む。
  4. 生成テストケースをライブ参照実装で実行: 評価はテスト実行時の暴露内容に基づく。エージェントの期待結果予測ではない。

ユースケース

  • エージェントの意味あるAPIテスト生成能力評価: スキーマ形式生成を超え、実バグを暴露するテストを生むかを知りたい場合に有用。
  • 同一ブラックボックス制約下でのエージェント戦略比較: 入力がスキーマ+例ペイロードに限定されるため、パフォーマンス差はテスト推論とカバレッジを反映。追加情報アクセスではない。
  • 構造的堅牢性テスト(単純バグ検知): 必須フィールド欠落、空値(例: "", null, [])、誤データ型などのチェックを含む。ベースラインリクエスト処理検証に役立つ。
  • 制約/検証推論評価(中程度バグ検知): 範囲外数値、異常フィールド形式(例: email、通貨コード、日付形式)、境界/未文書enum値などのケースを含む。
  • ビジネスロジック/クロスフィールド推論評価(複雑バグ検知): 相互排他フィールド、適用不可注文への割引、他のフィールド依存の有効性問題などの検知が必要なシナリオ。

FAQ

各シナリオでエージェントに与えられる入力は? 正確に2入力:完全リクエストJSONスキーマとサンプルペイロード例。レスポンススキーマ、実装詳細、エラーメッセージ、その他ドキュメントなし。

エージェントは期待結果を予測する必要がある? 不要。生成テストスイートはリクエストペイロード付きテストケースで構成。評価はライブ参照実装実行時の観察による。

ベンチマークのバグ表現方法は? 各シナリオに複数(3〜8個)の植え付けバグ。複雑度別分類:単純構造問題、中程度フィールド制約違反、複雑多フィールド/意味的/ビジネスロジック関係。

APIEval-20が評価するのはスキーマ準拠かバグ発見か? バグ発見。テスト生成を可能にするスキーマ情報は提供されるが、ベンチマークはエージェントのテスト実行時バグ暴露をテスト。

代替案

  • スキーマ中心のテスト生成 / スキーマ準拠チェッカー: 生成されたリクエストがスキーマに一致するか(またはシステムがスキーマに従うか)を検証する位置づけ。APIEval-20とは異なり、ブラックボックス制約下でのバグ発見行動を直接評価しない。
  • 従来のAPIテストフレームワークおよびツール(例:リクエスト/契約テストツール): これらのワークフローは通常、人間作成のテストケースや追加知識に依存。APIEval-20に比べ、スキーマ+例のみからターゲットテストスイートを生成するエージェントの能力を評価しない可能性がある。
  • コードまたはテキスト生成向け汎用AI評価ベンチマーク: 一部のベンチマークは出力品質を評価するが、実行可能なテストの有効性ではない。APIEval-20はバグを露呈するためのテスト生成・実行におけるエンドツーエンドのエージェント行動を特化して対象とする。
  • APIのプロパティベース / ファジングテストアプローチ: 多数の入力を生成してAPIを広範にテスト可能だが、スキーマと例ペイロードからターゲットテストを設計するエージェントの推論プロセスを評価しない可能性がある。