APIEval-20

APIEval-20とは？

APIEval-20は、ブラックボックス制約下での実世界APIテストスイート生成を評価するためのタスクベンチマークです。一般的なモデル品質や表面的なスキーマ準拠に焦点を当てるのではなく、APIサーフェスについて推論し、実際にバグを発見するテストを生成できるかを測定します。

各シナリオでは、エージェントにAPIリクエストスキーマとサンプルペイロードのみが与えられます—ソースコードなし、スキーマ以外のドキュメントなし、事前知識なし。生成されたテストスイートはライブ参照実装に対して実行され、テストが暴露するバグを観察します。

AIエージェント向けタスクベンチマーク（モデルベンチマークではない）: テスト設計とバグ発見というエンドツーエンドのエージェント動作を評価。テキスト生成品質ではない。
実世界ドメインから抽出した20シナリオ: eコマース、決済、認証、ユーザー管理、スケジューリング、通知、検索/フィルタリングパターンをカバー。
ブラックボックス入力制約: 各シナリオで正確に2つの入力—(1) JSONスキーマ、(2) サンプルリクエストペイロード—のみ。レスポンススキーマ、実装詳細、エラーメッセージ、変更ログなし。
複雑度別ラベリングのバグスペクトラム: 各シナリオに3〜8個の植え付けバグ。推論複雑度で分類：単純構造問題、中程度フィールド制約違反、複雑多フィールド/ビジネスロジック相互作用。
テストスイート出力形式（リクエストのみテストケース）: エージェントはテストケースリストを生成。各ケースに短いテスト名と完全な有効JSONリクエストペイロード。期待結果不要。

エージェントの意味あるAPIテスト生成能力評価: スキーマ形式生成を超え、実バグを暴露するテストを生むかを知りたい場合に有用。
同一ブラックボックス制約下でのエージェント戦略比較: 入力がスキーマ+例ペイロードに限定されるため、パフォーマンス差はテスト推論とカバレッジを反映。追加情報アクセスではない。
構造的堅牢性テスト（単純バグ検知）: 必須フィールド欠落、空値（例: "", null, []）、誤データ型などのチェックを含む。ベースラインリクエスト処理検証に役立つ。
制約/検証推論評価（中程度バグ検知）: 範囲外数値、異常フィールド形式（例: email、通貨コード、日付形式）、境界/未文書enum値などのケースを含む。
ビジネスロジック/クロスフィールド推論評価（複雑バグ検知）: 相互排他フィールド、適用不可注文への割引、他のフィールド依存の有効性問題などの検知が必要なシナリオ。

各シナリオでエージェントに与えられる入力は？ 正確に2入力：完全リクエストJSONスキーマとサンプルペイロード例。レスポンススキーマ、実装詳細、エラーメッセージ、その他ドキュメントなし。

エージェントは期待結果を予測する必要がある？ 不要。生成テストスイートはリクエストペイロード付きテストケースで構成。評価はライブ参照実装実行時の観察による。

ベンチマークのバグ表現方法は？ 各シナリオに複数（3〜8個）の植え付けバグ。複雑度別分類：単純構造問題、中程度フィールド制約違反、複雑多フィールド/意味的/ビジネスロジック関係。

APIEval-20が評価するのはスキーマ準拠かバグ発見か？ バグ発見。テスト生成を可能にするスキーマ情報は提供されるが、ベンチマークはエージェントのテスト実行時バグ暴露をテスト。

スキーマ中心のテスト生成 / スキーマ準拠チェッカー： 生成されたリクエストがスキーマに一致するか（またはシステムがスキーマに従うか）を検証する位置づけ。APIEval-20とは異なり、ブラックボックス制約下でのバグ発見行動を直接評価しない。
従来のAPIテストフレームワークおよびツール（例：リクエスト/契約テストツール）： これらのワークフローは通常、人間作成のテストケースや追加知識に依存。APIEval-20に比べ、スキーマ＋例のみからターゲットテストスイートを生成するエージェントの能力を評価しない可能性がある。
コードまたはテキスト生成向け汎用AI評価ベンチマーク： 一部のベンチマークは出力品質を評価するが、実行可能なテストの有効性ではない。APIEval-20はバグを露呈するためのテスト生成・実行におけるエンドツーエンドのエージェント行動を特化して対象とする。
APIのプロパティベース / ファジングテストアプローチ： 多数の入力を生成してAPIを広範にテスト可能だが、スキーマと例ペイロードからターゲットテストを設計するエージェントの推論プロセスを評価しない可能性がある。