APIEval-20 是什么?
APIEval-20 是一个任务基准,旨在评估 AI 代理在黑盒约束下的真实世界 API 测试套件生成能力。它不关注模型的总体质量或表面模式合规性,而是衡量代理是否能推理 API 表面并生成实际发现缺陷的测试。
在每个场景中,代理仅接收 API 请求模式和示例载荷——无源代码、无模式外文档、无先验知识。随后,将生成的测试套件针对实时参考实现运行,以观察测试暴露的缺陷。
主要特性
- AI 代理任务基准(非模型基准): 评估端到端代理行为——测试设计和缺陷发现——而非文本生成质量。
- 20 个真实领域场景集: 场景覆盖电商、支付、认证、用户管理、调度、通知以及搜索/过滤模式。
- 黑盒输入约束: 每个场景仅提供两个输入——(1) JSON 模式 和 (2) 示例请求载荷——无响应模式、实现细节、错误消息或变更日志。
- 基于复杂度的缺陷谱系标注: 每个场景包含 3–8 个植入缺陷,按推理复杂度分类:简单结构问题、中等字段约束违规,以及复杂多字段/业务逻辑交互。
- 测试套件输出格式(仅请求测试用例): 代理输出测试用例列表,每个用例含简短测试名称和完整 JSON 请求载荷;无需预期结果。
如何使用 APIEval-20
- 从 APIEval-20 基准中选择一个场景。 每个场景提供 API 请求 JSON 模式和示例载荷。
- 将这两个输入提供给您的 AI 代理。 基准专为代理无法依赖实现细节或额外文档而设计。
- 生成测试套件: 让代理输出测试用例,每个用例包含人类可读名称和完整 JSON 请求载荷。
- 将生成的测试用例针对实时参考实现运行: 评估基于测试执行时揭示的内容,而非代理预测的预期结果。
使用场景
- 评估代理生成有意义 API 测试的能力: 当您想了解代理是否能超越模式形式生成,产生揭示真实缺陷的测试时有用。
- 在相同黑盒约束下比较代理策略: 因输入限于模式 + 示例载荷,性能差异反映测试推理和覆盖率,而非额外信息访问。
- 测试结构鲁棒性(简单缺陷检测): 场景包含缺失必填字段、空值(例如 ""、null、[])和错误数据类型检查——有助于验证基础请求处理。
- 评估约束和验证推理(中等缺陷检测): 基准包含超出范围数值、畸形字段格式(例如邮箱、货币代码、日期格式)以及边界/未文档枚举值等案例。
- 评估业务逻辑和跨字段推理(复杂缺陷检测): 某些场景需检测互斥字段、应用于不合格订单的折扣,或字段有效性依赖其他字段的问题。
常见问题
代理在每个场景中获得什么输入?
代理精确接收两个输入:完整请求 JSON 模式和示例载荷示例。无响应模式、实现细节、错误消息或其他文档。
代理需要预测预期结果吗?
不需要。生成的测试套件由含请求载荷的测试用例组成;评估通过将这些测试针对实时参考实现运行并观察结果完成。
基准中缺陷如何表示?
每个场景包含多个植入缺陷(3–8 个),按复杂度分类:简单结构问题、中等字段级约束违规,以及复杂多字段或语义/业务逻辑关系。
APIEval-20 评估什么:模式合规还是缺陷发现?
缺陷发现。虽然提供模式信息以启用测试生成,但基准旨在测试代理的测试执行时是否能发现缺陷。
替代方案
- 模式聚焦的测试生成 / 模式合规性检查器: 这些工具专注于验证生成的请求是否匹配模式(或系统是否遵循模式)。它们与 APIEval-20 的区别在于,不直接评估黑盒约束下的缺陷发现行为。
- 传统 API 测试框架和工具(例如,请求/契约测试工具): 这些工作流通常依赖人工编写的测试用例或额外知识。与 APIEval-20 相比,它们可能无法评估代理仅从模式 + 示例生成针对性测试套件的能力。
- 代码或文本生成的通用 AI 评估基准: 一些基准评估输出质量,而非可执行测试的有效性。APIEval-20 专门针对代理端到端行为,即生成并运行测试以暴露缺陷。
- API 属性基 / 模糊测试方法: 这些方法通过生成大量输入广泛测试 API,但可能无法评估代理从模式和示例载荷设计针对性测试的推理过程。
替代品
AakarDev AI
AakarDev AI 是一个强大的平台,通过无缝的向量数据库集成简化 AI 应用程序的开发,实现快速部署和可扩展性。
Arduino VENTUNO Q
Arduino VENTUNO Q 边缘AI电脑,集成AI推理与微控制器确定性控制;用 Arduino App Lab 打通嵌入式、Linux与边缘AI开发。
Devin
Devin 是 AI 编程代理,帮助软件团队并行完成代码迁移与大规模重构子任务;工程师负责项目管理并批准改动。
open-codex-computer-use
open-codex-computer-use 是开源“电脑使用”服务的 MCP 服务器封装,让 AI 代理在 macOS/Linux/Windows 上执行桌面 GUI 操作。
Codex Plugins
使用 Codex Plugins 将技能、应用集成和 MCP 服务器打包成可复用工作流,扩展 Codex 访问 Gmail、Google Drive 与 Slack 等工具。
Ably Chat
Ably Chat 提供聊天 API 和 SDK,用于自定义实时聊天应用:支持反应、在线/房间状态及消息编辑/删除,面向高并发场景。