UStackUStack
APIEval-20 icon

APIEval-20

APIEval-20 是任務基準,用於評估 AI 代理在黑箱限制下產生 API 測試套件的能力,涵蓋 20 種結構與 payload 情境,衡量真實找錯行為。

APIEval-20

APIEval-20 是什麼?

APIEval-20 是一個任務基準,用於評估 AI 代理在黑箱限制下進行真實世界 API 測試套件生成的表現。它不專注於模型品質或表面結構相容性,而是衡量代理是否能推理 API 介面並生成真正揭露錯誤的測試。

在每個情境中,代理僅收到 API 請求結構和範例 payload—無原始碼、無額外文件,且無先驗知識。生成的測試套件會對應真實參考實作執行,以觀察測試揭露的錯誤。

主要特色

  • AI 代理任務基準(非模型基準): 評估端到端代理行為—測試設計與錯誤發現—而非文字生成品質。
  • 20 個來自真實領域的情境集: 涵蓋電子商務、付款、認證、使用者管理、排程、通知,以及搜尋/篩選模式。
  • 黑箱輸入限制: 每個情境僅提供兩個輸入—(1) JSON 結構 和 (2) 範例請求 payload—無回應結構、實作細節、錯誤訊息或變更日誌。
  • 錯誤類譜與複雜度標記: 每個情境包含 3–8 個植入錯誤,按推理複雜度分類:簡單結構問題、中等欄位限制違規,以及複雜多欄位/業務邏輯互動。
  • 測試套件輸出格式(僅請求測試案例): 代理產生測試案例清單,每個包含簡短測試名稱與完整 JSON 請求 payload;無需預期結果。

如何使用 APIEval-20

  1. 從 APIEval-20 基準選擇情境。 每個情境提供 API 請求 JSON 結構與範例 payload。
  2. 將這兩個輸入提供給 AI 代理。 基準專為代理無法依賴實作細節或額外文件而設計。
  3. 生成測試套件: 讓代理輸出測試案例,每個包含人類可讀名稱與完整 JSON 請求 payload。
  4. 對真實參考實作執行生成的測試案例: 評估基於測試執行時揭露的內容,而非代理預測預期結果。

使用情境

  • 評估代理生成有意義 API 測試的能力: 適用於確認代理是否超越結構生成,產生揭露真實錯誤的測試。
  • 在相同黑箱限制下比較代理策略: 因輸入限於結構 + 範例 payload,效能差異反映測試推理與覆蓋率,而非額外資訊存取。
  • 測試結構穩健性(簡單錯誤偵測): 情境包含缺失必要欄位、空值(例如 ""、null、[])及錯誤資料類型檢查—有助驗證基本請求處理。
  • 評估限制與驗證推理(中等錯誤偵測): 基準包含超出範圍數值、格式錯誤欄位(例如 email、貨幣代碼、日期格式),以及邊界/未記錄枚舉值。
  • 評估業務邏輯與跨欄位推理(複雜錯誤偵測): 部分情境需偵測互斥欄位、折扣套用不合資格訂單,或欄位有效性依賴其他欄位等問題。

常見問題

代理在每個情境收到什麼輸入?
代理僅收到兩個輸入:完整請求 JSON 結構與範例 payload。無回應結構、實作細節、錯誤訊息或其他文件。

代理需要預測預期結果嗎?
不需要。生成的測試套件僅含請求 payload 測試案例;評估透過對真實參考實作執行測試並觀察結果進行。

基準中錯誤如何呈現?
每個情境包含多個植入錯誤(3 至 8 個),依複雜度分類:簡單結構問題、中等欄位限制違規,以及複雜多欄位或語意/業務邏輯關係。

APIEval-20 評估什麼:結構相容性還是錯誤發現?
錯誤發現。雖然提供結構資訊以生成測試,但基準旨在測試代理的測試執行時是否揭露錯誤。

替代方案

  • 專注 schema 的測試生成 / schema 合規性檢查工具: 這些工具著重驗證生成的請求是否符合 schema(或系統是否遵循 schema)。與 APIEval-20 不同,它們不直接評估黑箱限制下的找錯行為。
  • 傳統 API 測試框架與工具(例如,request/contract 測試工具): 這些工作流程通常依賴人工撰寫的測試案例或額外知識。相較 APIEval-20,它們可能無法評估代理僅從 schema + 範例生成針對性測試套件的能力。
  • 通用 AI 評估基準,用於程式碼或文字生成: 有些基準評估輸出品質,而非可執行的測試有效性。APIEval-20 特別針對代理端到端行為,即生成並執行測試以暴露 bug。
  • API 屬性導向 / fuzz 測試方法: 這些方法可透過生成大量輸入廣泛測試 API,但可能無法評估代理從 schema 與範例 payload 設計針對性測試的推理過程。