APIEval-20
APIEval-20 — бенчмарк задач для оценки AI-агентов: генерация API-тестов в black-box режиме по 20 сценариям схем и payload для поиска багов.
Что такое APIEval-20?
APIEval-20 — бенчмарк задач для оценки AI-агентов на генерацию реальных API-тест-свитов в black-box режиме. Вместо фокуса на общей модели или поверхностном соответствии схеме он измеряет, может ли агент рассуждать о API-интерфейсе и генерировать тесты, которые действительно выявляют баги.
В каждом сценарии агент получает только схему API-запроса и пример payload — без исходного кода, документации кроме схемы и предварительных знаний. Сгенерированный тест-свит запускается против живой референсной реализации, чтобы наблюдать выявленные баги.
Ключевые особенности
- Бенчмарк задач для AI-агентов (не для моделей): Оценивает поведение агента end-to-end — дизайн тестов и обнаружение багов, — а не качество генерации текста.
- 20 сценариев из реальных доменов: Сценарии охватывают e-commerce, платежи, аутентификацию, управление пользователями, планирование, уведомления и паттерны поиска/фильтрации.
- Ограничение black-box ввода: Агент получает ровно два входа на сценарий — (1) JSON-схему и (2) пример payload запроса — без схем ответов, деталей реализации, сообщений об ошибках или чейнджлогов.
- Спектр багов с маркировкой по сложности: Каждый сценарий содержит 3–8 внедрённых багов, классифицированных по сложности рассуждений: простые структурные проблемы, умеренные нарушения ограничений полей и сложные взаимодействия полей/бизнес-логики.
- Формат вывода тест-свита (только запросы): Агент генерирует список тест-кейсов, каждый с коротким именем теста и полным payload запроса как валидный JSON; ожидаемые исходы не требуются.
Как использовать APIEval-20
- Выберите сценарий из бенчмарка APIEval-20. Каждый сценарий предоставляет JSON-схему API-запроса и пример payload.
- Передайте эти два входа вашему AI-агенту. Бенчмарк специально спроектирован, чтобы агент не мог полагаться на детали реализации или лишнюю документацию.
- Сгенерируйте тест-свит: Пусть агент выведет тест-кейсы, где каждый включает читаемое имя и полный JSON-payload запроса.
- Запустите сгенерированные тест-кейсы против живой референсной реализации: Оценка основана на том, что тесты выявляют при выполнении, а не на предсказаниях агента ожидаемых исходов.
Сценарии использования
- Оценка способности агента генерировать значимые API-тесты: Полезно, когда нужно понять, может ли агент выйти за формальную генерацию по схеме и создать тесты, выявляющие реальные баги.
- Сравнение стратегий агентов в одинаковых black-box условиях: Поскольку входы ограничены схемой + примером payload, различия в производительности отражают рассуждения о тестах и покрытии, а не доступ к доп. информации.
- Тестирование структурной устойчивости (простое обнаружение багов): Сценарии включают проверки на отсутствие обязательных полей, пустые значения (например, "", null, []), неверные типы данных — полезно для валидации базовой обработки запросов.
- Оценка рассуждений о ограничениях и валидации (умеренное обнаружение багов): Бенчмарк содержит случаи вроде значений вне диапазона, некорректных форматов полей (например, email, код валюты, формат даты), плюс граничные/недокументированные enum-значения.
- Оценка бизнес-логики и межполевых рассуждений (сложное обнаружение багов): Некоторые сценарии требуют выявления проблем с взаимоисключающими полями, скидками на неэлигибельные заказы или валидностью поля, зависящей от других.
FAQ
Какие входы получает агент на сценарий?
Агент получает ровно два входа: полную JSON-схему запроса и пример payload. Схемы ответов, детали реализации, сообщения об ошибках или другая документация не предоставляются.
Должен ли агент предсказывать ожидаемые исходы?
Нет. Тест-свит состоит из тест-кейсов с payload запросов; оценка проводится запуском тестов против живой референсной реализации и наблюдением результатов.
Как представлены баги в бенчмарке?
Каждый сценарий содержит несколько внедрённых багов (от 3 до 8), категоризированных по сложности: простые структурные проблемы, умеренные нарушения ограничений полей и сложные межполевые или семантические/бизнес-логика связи.
Что оценивает APIEval-20: соответствие схеме или поиск багов?
Поиск багов. Хотя схема предоставлена для генерации тестов, бенчмарк тестирует, выявляют ли тесты агента баги при выполнении.
Альтернативы
- Генерация тестов на основе схемы / проверщики соответствия схеме: Они ориентированы на проверку того, что сгенерированные запросы соответствуют схеме (или что система следует схеме). В отличие от APIEval-20, они не оценивают напрямую поведение по поиску багов в условиях black-box.
- Традиционные фреймворки и инструменты для API-тестирования (например, инструменты для request/contract-тестов): Эти рабочие процессы обычно полагаются на тесты, написанные человеком, или дополнительную информацию. В сравнении с APIEval-20 они могут не оценивать способность агента генерировать целевые тестовые наборы только из схемы + примера.
- Общие бенчмарки для оценки AI в генерации кода или текста: Некоторые бенчмарки оценивают качество вывода, а не эффективность исполняемых тестов. APIEval-20 специально нацелен на end-to-end поведение агента при генерации и запуске тестов для выявления багов.
- Подходы к property-based / fuzz-тестированию API: Они могут широко тестировать API, генерируя множество входов, но могут не оценивать процесс рассуждений агента при проектировании целевых тестов из схемы и примеров payload.
Альтернативы
AakarDev AI
AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.
Arduino VENTUNO Q
Arduino VENTUNO Q — edge AI компьютер для робототехники: ускоренный вывод нейросетей и микроконтроллер для детерминированного управления. Через Arduino App Lab.
Devin
Devin — AI coding-агент для команд: помогает завершать миграции и крупные рефакторинги, выполняя подзадачи параллельно под контролем инженеров.
open-codex-computer-use
open-codex-computer-use — open-source служба «Computer Use» в виде MCP-сервера: AI-агенты управляют GUI на macOS, Linux и Windows.
Codex Plugins
Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.
Ably Chat
Ably Chat — chat API и SDK для кастомных realtime-приложений: реакции, presence и правка/удаление сообщений для чатов в масштабе.