UStackUStack
APIEval-20 icon

APIEval-20

APIEval-20 — бенчмарк задач для оценки AI-агентов: генерация API-тестов в black-box режиме по 20 сценариям схем и payload для поиска багов.

APIEval-20

Что такое APIEval-20?

APIEval-20 — бенчмарк задач для оценки AI-агентов на генерацию реальных API-тест-свитов в black-box режиме. Вместо фокуса на общей модели или поверхностном соответствии схеме он измеряет, может ли агент рассуждать о API-интерфейсе и генерировать тесты, которые действительно выявляют баги.

В каждом сценарии агент получает только схему API-запроса и пример payload — без исходного кода, документации кроме схемы и предварительных знаний. Сгенерированный тест-свит запускается против живой референсной реализации, чтобы наблюдать выявленные баги.

Ключевые особенности

  • Бенчмарк задач для AI-агентов (не для моделей): Оценивает поведение агента end-to-end — дизайн тестов и обнаружение багов, — а не качество генерации текста.
  • 20 сценариев из реальных доменов: Сценарии охватывают e-commerce, платежи, аутентификацию, управление пользователями, планирование, уведомления и паттерны поиска/фильтрации.
  • Ограничение black-box ввода: Агент получает ровно два входа на сценарий — (1) JSON-схему и (2) пример payload запроса — без схем ответов, деталей реализации, сообщений об ошибках или чейнджлогов.
  • Спектр багов с маркировкой по сложности: Каждый сценарий содержит 3–8 внедрённых багов, классифицированных по сложности рассуждений: простые структурные проблемы, умеренные нарушения ограничений полей и сложные взаимодействия полей/бизнес-логики.
  • Формат вывода тест-свита (только запросы): Агент генерирует список тест-кейсов, каждый с коротким именем теста и полным payload запроса как валидный JSON; ожидаемые исходы не требуются.

Как использовать APIEval-20

  1. Выберите сценарий из бенчмарка APIEval-20. Каждый сценарий предоставляет JSON-схему API-запроса и пример payload.
  2. Передайте эти два входа вашему AI-агенту. Бенчмарк специально спроектирован, чтобы агент не мог полагаться на детали реализации или лишнюю документацию.
  3. Сгенерируйте тест-свит: Пусть агент выведет тест-кейсы, где каждый включает читаемое имя и полный JSON-payload запроса.
  4. Запустите сгенерированные тест-кейсы против живой референсной реализации: Оценка основана на том, что тесты выявляют при выполнении, а не на предсказаниях агента ожидаемых исходов.

Сценарии использования

  • Оценка способности агента генерировать значимые API-тесты: Полезно, когда нужно понять, может ли агент выйти за формальную генерацию по схеме и создать тесты, выявляющие реальные баги.
  • Сравнение стратегий агентов в одинаковых black-box условиях: Поскольку входы ограничены схемой + примером payload, различия в производительности отражают рассуждения о тестах и покрытии, а не доступ к доп. информации.
  • Тестирование структурной устойчивости (простое обнаружение багов): Сценарии включают проверки на отсутствие обязательных полей, пустые значения (например, "", null, []), неверные типы данных — полезно для валидации базовой обработки запросов.
  • Оценка рассуждений о ограничениях и валидации (умеренное обнаружение багов): Бенчмарк содержит случаи вроде значений вне диапазона, некорректных форматов полей (например, email, код валюты, формат даты), плюс граничные/недокументированные enum-значения.
  • Оценка бизнес-логики и межполевых рассуждений (сложное обнаружение багов): Некоторые сценарии требуют выявления проблем с взаимоисключающими полями, скидками на неэлигибельные заказы или валидностью поля, зависящей от других.

FAQ

Какие входы получает агент на сценарий?
Агент получает ровно два входа: полную JSON-схему запроса и пример payload. Схемы ответов, детали реализации, сообщения об ошибках или другая документация не предоставляются.

Должен ли агент предсказывать ожидаемые исходы?
Нет. Тест-свит состоит из тест-кейсов с payload запросов; оценка проводится запуском тестов против живой референсной реализации и наблюдением результатов.

Как представлены баги в бенчмарке?
Каждый сценарий содержит несколько внедрённых багов (от 3 до 8), категоризированных по сложности: простые структурные проблемы, умеренные нарушения ограничений полей и сложные межполевые или семантические/бизнес-логика связи.

Что оценивает APIEval-20: соответствие схеме или поиск багов?
Поиск багов. Хотя схема предоставлена для генерации тестов, бенчмарк тестирует, выявляют ли тесты агента баги при выполнении.

Альтернативы

  • Генерация тестов на основе схемы / проверщики соответствия схеме: Они ориентированы на проверку того, что сгенерированные запросы соответствуют схеме (или что система следует схеме). В отличие от APIEval-20, они не оценивают напрямую поведение по поиску багов в условиях black-box.
  • Традиционные фреймворки и инструменты для API-тестирования (например, инструменты для request/contract-тестов): Эти рабочие процессы обычно полагаются на тесты, написанные человеком, или дополнительную информацию. В сравнении с APIEval-20 они могут не оценивать способность агента генерировать целевые тестовые наборы только из схемы + примера.
  • Общие бенчмарки для оценки AI в генерации кода или текста: Некоторые бенчмарки оценивают качество вывода, а не эффективность исполняемых тестов. APIEval-20 специально нацелен на end-to-end поведение агента при генерации и запуске тестов для выявления багов.
  • Подходы к property-based / fuzz-тестированию API: Они могут широко тестировать API, генерируя множество входов, но могут не оценивать процесс рассуждений агента при проектировании целевых тестов из схемы и примеров payload.

Альтернативы

AakarDev AI icon

AakarDev AI

AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.

Arduino VENTUNO Q icon

Arduino VENTUNO Q

Arduino VENTUNO Q — edge AI компьютер для робототехники: ускоренный вывод нейросетей и микроконтроллер для детерминированного управления. Через Arduino App Lab.

Devin icon

Devin

Devin — AI coding-агент для команд: помогает завершать миграции и крупные рефакторинги, выполняя подзадачи параллельно под контролем инженеров.

open-codex-computer-use icon

open-codex-computer-use

open-codex-computer-use — open-source служба «Computer Use» в виде MCP-сервера: AI-агенты управляют GUI на macOS, Linux и Windows.

Codex Plugins icon

Codex Plugins

Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.

Ably Chat icon

Ably Chat

Ably Chat — chat API и SDK для кастомных realtime-приложений: реакции, presence и правка/удаление сообщений для чатов в масштабе.