APIEval-20

APIEval-20 是什麼？

APIEval-20 是一個任務基準，用於評估 AI 代理在黑箱限制下進行真實世界 API 測試套件生成的表現。它不專注於模型品質或表面結構相容性，而是衡量代理是否能推理 API 介面並生成真正揭露錯誤的測試。

在每個情境中，代理僅收到 API 請求結構和範例 payload—無原始碼、無額外文件，且無先驗知識。生成的測試套件會對應真實參考實作執行，以觀察測試揭露的錯誤。

代理在每個情境收到什麼輸入？
代理僅收到兩個輸入：完整請求 JSON 結構與範例 payload。無回應結構、實作細節、錯誤訊息或其他文件。

代理需要預測預期結果嗎？
不需要。生成的測試套件僅含請求 payload 測試案例；評估透過對真實參考實作執行測試並觀察結果進行。

基準中錯誤如何呈現？
每個情境包含多個植入錯誤（3 至 8 個），依複雜度分類：簡單結構問題、中等欄位限制違規，以及複雜多欄位或語意/業務邏輯關係。

APIEval-20 評估什麼：結構相容性還是錯誤發現？
錯誤發現。雖然提供結構資訊以生成測試，但基準旨在測試代理的測試執行時是否揭露錯誤。

專注 schema 的測試生成 / schema 合規性檢查工具： 這些工具著重驗證生成的請求是否符合 schema（或系統是否遵循 schema）。與 APIEval-20 不同，它們不直接評估黑箱限制下的找錯行為。
傳統 API 測試框架與工具（例如，request/contract 測試工具）： 這些工作流程通常依賴人工撰寫的測試案例或額外知識。相較 APIEval-20，它們可能無法評估代理僅從 schema + 範例生成針對性測試套件的能力。
通用 AI 評估基準，用於程式碼或文字生成： 有些基準評估輸出品質，而非可執行的測試有效性。APIEval-20 特別針對代理端到端行為，即生成並執行測試以暴露 bug。
API 屬性導向 / fuzz 測試方法： 這些方法可透過生成大量輸入廣泛測試 API，但可能無法評估代理從 schema 與範例 payload 設計針對性測試的推理過程。