APIEval-20 是什麼?
APIEval-20 是一個任務基準,用於評估 AI 代理在黑箱限制下進行真實世界 API 測試套件生成的表現。它不專注於模型品質或表面結構相容性,而是衡量代理是否能推理 API 介面並生成真正揭露錯誤的測試。
在每個情境中,代理僅收到 API 請求結構和範例 payload—無原始碼、無額外文件,且無先驗知識。生成的測試套件會對應真實參考實作執行,以觀察測試揭露的錯誤。
主要特色
- AI 代理任務基準(非模型基準): 評估端到端代理行為—測試設計與錯誤發現—而非文字生成品質。
- 20 個來自真實領域的情境集: 涵蓋電子商務、付款、認證、使用者管理、排程、通知,以及搜尋/篩選模式。
- 黑箱輸入限制: 每個情境僅提供兩個輸入—(1) JSON 結構 和 (2) 範例請求 payload—無回應結構、實作細節、錯誤訊息或變更日誌。
- 錯誤類譜與複雜度標記: 每個情境包含 3–8 個植入錯誤,按推理複雜度分類:簡單結構問題、中等欄位限制違規,以及複雜多欄位/業務邏輯互動。
- 測試套件輸出格式(僅請求測試案例): 代理產生測試案例清單,每個包含簡短測試名稱與完整 JSON 請求 payload;無需預期結果。
如何使用 APIEval-20
- 從 APIEval-20 基準選擇情境。 每個情境提供 API 請求 JSON 結構與範例 payload。
- 將這兩個輸入提供給 AI 代理。 基準專為代理無法依賴實作細節或額外文件而設計。
- 生成測試套件: 讓代理輸出測試案例,每個包含人類可讀名稱與完整 JSON 請求 payload。
- 對真實參考實作執行生成的測試案例: 評估基於測試執行時揭露的內容,而非代理預測預期結果。
使用情境
- 評估代理生成有意義 API 測試的能力: 適用於確認代理是否超越結構生成,產生揭露真實錯誤的測試。
- 在相同黑箱限制下比較代理策略: 因輸入限於結構 + 範例 payload,效能差異反映測試推理與覆蓋率,而非額外資訊存取。
- 測試結構穩健性(簡單錯誤偵測): 情境包含缺失必要欄位、空值(例如 ""、null、[])及錯誤資料類型檢查—有助驗證基本請求處理。
- 評估限制與驗證推理(中等錯誤偵測): 基準包含超出範圍數值、格式錯誤欄位(例如 email、貨幣代碼、日期格式),以及邊界/未記錄枚舉值。
- 評估業務邏輯與跨欄位推理(複雜錯誤偵測): 部分情境需偵測互斥欄位、折扣套用不合資格訂單,或欄位有效性依賴其他欄位等問題。
常見問題
代理在每個情境收到什麼輸入?
代理僅收到兩個輸入:完整請求 JSON 結構與範例 payload。無回應結構、實作細節、錯誤訊息或其他文件。
代理需要預測預期結果嗎?
不需要。生成的測試套件僅含請求 payload 測試案例;評估透過對真實參考實作執行測試並觀察結果進行。
基準中錯誤如何呈現?
每個情境包含多個植入錯誤(3 至 8 個),依複雜度分類:簡單結構問題、中等欄位限制違規,以及複雜多欄位或語意/業務邏輯關係。
APIEval-20 評估什麼:結構相容性還是錯誤發現?
錯誤發現。雖然提供結構資訊以生成測試,但基準旨在測試代理的測試執行時是否揭露錯誤。
替代方案
- 專注 schema 的測試生成 / schema 合規性檢查工具: 這些工具著重驗證生成的請求是否符合 schema(或系統是否遵循 schema)。與 APIEval-20 不同,它們不直接評估黑箱限制下的找錯行為。
- 傳統 API 測試框架與工具(例如,request/contract 測試工具): 這些工作流程通常依賴人工撰寫的測試案例或額外知識。相較 APIEval-20,它們可能無法評估代理僅從 schema + 範例生成針對性測試套件的能力。
- 通用 AI 評估基準,用於程式碼或文字生成: 有些基準評估輸出品質,而非可執行的測試有效性。APIEval-20 特別針對代理端到端行為,即生成並執行測試以暴露 bug。
- API 屬性導向 / fuzz 測試方法: 這些方法可透過生成大量輸入廣泛測試 API,但可能無法評估代理從 schema 與範例 payload 設計針對性測試的推理過程。
替代品
AakarDev AI
AakarDev AI 是一個強大的平台,通過無縫的向量資料庫整合簡化 AI 應用程式的開發,實現快速部署和可擴展性。
Arduino VENTUNO Q
Arduino VENTUNO Q 邊緣 AI 電腦,結合 AI 推論硬體與微控制器,支援機器人即時控制;透過 Arduino App Lab 進行嵌入式、Linux 與邊緣 AI 工作流程。
Devin
Devin 是 AI 程式碼代理,可平行執行程式碼遷移與大型重構子任務;工程師負責專案管理並審核變更。
open-codex-computer-use
open-codex-computer-use 是開源「Computer Use」服務,封裝為 MCP 伺服器,讓 AI 代理或 MCP 用戶端在 macOS/Linux/Windows 執行桌面 GUI 操作。
Codex Plugins
使用 Codex Plugins 將技能、應用程式整合與 MCP 伺服器打包成可重複使用的工作流程,讓 Codex 存取 Gmail、Google Drive、Slack 等工具。
Ably Chat
Ably Chat 提供聊天 API 與 SDK,讓你打造自訂即時聊天室,支援反應、在線狀態、訊息編輯/刪除等功能。