APIEval-20
APIEval-20は、ブラックボックス制約でAIエージェントを評価するタスクベンチマーク。20のスキーマ/ペイロード例で実バグ発見を測定します。
APIEval-20とは?
APIEval-20は、ブラックボックス制約下での実世界APIテストスイート生成を評価するためのタスクベンチマークです。一般的なモデル品質や表面的なスキーマ準拠に焦点を当てるのではなく、APIサーフェスについて推論し、実際にバグを発見するテストを生成できるかを測定します。
各シナリオでは、エージェントにAPIリクエストスキーマとサンプルペイロードのみが与えられます—ソースコードなし、スキーマ以外のドキュメントなし、事前知識なし。生成されたテストスイートはライブ参照実装に対して実行され、テストが暴露するバグを観察します。
主な特徴
- AIエージェント向けタスクベンチマーク(モデルベンチマークではない): テスト設計とバグ発見というエンドツーエンドのエージェント動作を評価。テキスト生成品質ではない。
- 実世界ドメインから抽出した20シナリオ: eコマース、決済、認証、ユーザー管理、スケジューリング、通知、検索/フィルタリングパターンをカバー。
- ブラックボックス入力制約: 各シナリオで正確に2つの入力—(1) JSONスキーマ、(2) サンプルリクエストペイロード—のみ。レスポンススキーマ、実装詳細、エラーメッセージ、変更ログなし。
- 複雑度別ラベリングのバグスペクトラム: 各シナリオに3〜8個の植え付けバグ。推論複雑度で分類:単純構造問題、中程度フィールド制約違反、複雑多フィールド/ビジネスロジック相互作用。
- テストスイート出力形式(リクエストのみテストケース): エージェントはテストケースリストを生成。各ケースに短いテスト名と完全な有効JSONリクエストペイロード。期待結果不要。
APIEval-20の使い方
- APIEval-20ベンチマークからシナリオを選択. 各シナリオにAPIリクエストJSONスキーマとサンプルペイロードを提供。
- AIエージェントにその2入力のみを提供. ベンチマークは実装詳細や追加ドキュメントに頼れないよう設計。
- テストスイートを生成: エージェントにテストケースを出力させ、各ケースに人間 readable な名前と完全JSONリクエストペイロードを含む。
- 生成テストケースをライブ参照実装で実行: 評価はテスト実行時の暴露内容に基づく。エージェントの期待結果予測ではない。
ユースケース
- エージェントの意味あるAPIテスト生成能力評価: スキーマ形式生成を超え、実バグを暴露するテストを生むかを知りたい場合に有用。
- 同一ブラックボックス制約下でのエージェント戦略比較: 入力がスキーマ+例ペイロードに限定されるため、パフォーマンス差はテスト推論とカバレッジを反映。追加情報アクセスではない。
- 構造的堅牢性テスト(単純バグ検知): 必須フィールド欠落、空値(例: "", null, [])、誤データ型などのチェックを含む。ベースラインリクエスト処理検証に役立つ。
- 制約/検証推論評価(中程度バグ検知): 範囲外数値、異常フィールド形式(例: email、通貨コード、日付形式)、境界/未文書enum値などのケースを含む。
- ビジネスロジック/クロスフィールド推論評価(複雑バグ検知): 相互排他フィールド、適用不可注文への割引、他のフィールド依存の有効性問題などの検知が必要なシナリオ。
FAQ
各シナリオでエージェントに与えられる入力は? 正確に2入力:完全リクエストJSONスキーマとサンプルペイロード例。レスポンススキーマ、実装詳細、エラーメッセージ、その他ドキュメントなし。
エージェントは期待結果を予測する必要がある? 不要。生成テストスイートはリクエストペイロード付きテストケースで構成。評価はライブ参照実装実行時の観察による。
ベンチマークのバグ表現方法は? 各シナリオに複数(3〜8個)の植え付けバグ。複雑度別分類:単純構造問題、中程度フィールド制約違反、複雑多フィールド/意味的/ビジネスロジック関係。
APIEval-20が評価するのはスキーマ準拠かバグ発見か? バグ発見。テスト生成を可能にするスキーマ情報は提供されるが、ベンチマークはエージェントのテスト実行時バグ暴露をテスト。
代替案
- スキーマ中心のテスト生成 / スキーマ準拠チェッカー: 生成されたリクエストがスキーマに一致するか(またはシステムがスキーマに従うか)を検証する位置づけ。APIEval-20とは異なり、ブラックボックス制約下でのバグ発見行動を直接評価しない。
- 従来のAPIテストフレームワークおよびツール(例:リクエスト/契約テストツール): これらのワークフローは通常、人間作成のテストケースや追加知識に依存。APIEval-20に比べ、スキーマ+例のみからターゲットテストスイートを生成するエージェントの能力を評価しない可能性がある。
- コードまたはテキスト生成向け汎用AI評価ベンチマーク: 一部のベンチマークは出力品質を評価するが、実行可能なテストの有効性ではない。APIEval-20はバグを露呈するためのテスト生成・実行におけるエンドツーエンドのエージェント行動を特化して対象とする。
- APIのプロパティベース / ファジングテストアプローチ: 多数の入力を生成してAPIを広範にテスト可能だが、スキーマと例ペイロードからターゲットテストを設計するエージェントの推論プロセスを評価しない可能性がある。
代替品
AakarDev AI
AakarDev AIは、シームレスなベクターデータベース統合を通じてAIアプリケーションの開発を簡素化し、迅速な展開とスケーラビリティを実現する強力なプラットフォームです。
Arduino VENTUNO Q
Arduino VENTUNO Qはロボット向けエッジAIコンピュータ。AI推論とマイコン制御を統合し、Arduino App Labで埋め込み/ Linux/エッジAI開発。
Devin
Devinは、AIコーディングエージェントとして移行や大規模リファクタのサブタスクを並列実行。人が管理し変更を承認。
open-codex-computer-use
open-codex-computer-use は、MCPサーバーで「Computer Use」機能を提供するオープンソース。macOS/Linux/WindowsでGUI操作を実行可能。
Codex Plugins
Codex Pluginsでスキル、アプリ連携、MCPサーバーを再利用可能なワークフローにまとめ、Gmail・Google Drive・Slack等のツールにアクセス。
Ably Chat
Ably Chatはカスタムリアルタイムチャット用のAPI/SDK。リアクション、プレゼンス、メッセージ編集/削除に対応し高負荷も設計。