APIEval-20

Qu’est-ce qu’APIEval-20 ?

APIEval-20 est un benchmark de tâches conçu pour évaluer les agents IA sur la génération de suites de tests d’API en conditions réelles sous contrainte black-box. Au lieu de se concentrer sur la qualité générale du modèle ou sur une conformité superficielle au schéma, il mesure si un agent peut raisonner sur la surface d’une API et générer des tests qui révèlent réellement des bugs.

Dans chaque scénario, l’agent reçoit uniquement un schéma de requête API et un payload d’exemple — pas de code source, pas de documentation au-delà du schéma, et pas de connaissance préalable. La suite de tests générée est ensuite exécutée contre une implémentation de référence live pour observer les bugs exposés par les tests.

Fonctionnalités clés

Benchmark de tâches pour agents IA (pas un benchmark de modèles) : Évalue le comportement end-to-end de l’agent — conception de tests et découverte de bugs — plutôt que la qualité de génération de texte.
Ensemble de 20 scénarios tirés de domaines réels : Les scénarios couvrent e-commerce, paiements, authentification, gestion d’utilisateurs, planification, notifications, et patterns de recherche/filtrage.
Contrainte d’entrée black-box : L’agent reçoit exactement deux entrées par scénario — (1) le schéma JSON et (2) un payload de requête d’exemple — sans schémas de réponse, détails d’implémentation, messages d’erreur ou changelogs.
Spectre de bugs avec étiquetage par complexité : Chaque scénario inclut 3 à 8 bugs plantés classés par complexité de raisonnement : problèmes structurels simples, violations modérées de contraintes de champs, et interactions complexes multi-champs/logique métier.
Format de sortie de suite de tests (cas de tests request-only) : L’agent produit une liste de cas de tests, chacun avec un nom de test court et un payload de requête complet en JSON valide ; pas de résultats attendus requis.

Comment utiliser APIEval-20

Sélectionnez un scénario du benchmark APIEval-20. Chaque scénario fournit un schéma JSON de requête API et un payload d’exemple.
Fournissez ces deux entrées à votre agent IA. Le benchmark est conçu spécifiquement pour que l’agent ne puisse pas s’appuyer sur des détails d’implémentation ou une documentation supplémentaire.
Générez une suite de tests : Faites produire à l’agent des cas de tests où chaque cas inclut un nom lisible par un humain et un payload de requête JSON complet.
Exécutez les cas de tests produits contre l’implémentation de référence live : L’évaluation repose sur ce que les tests révèlent lors de l’exécution, pas sur la prédiction de résultats attendus par l’agent.

Cas d’usage

Évaluer la capacité d’un agent à générer des tests API significatifs : Utile quand vous voulez savoir si un agent peut aller au-delà de la génération formelle par schéma et produire des tests qui révèlent de vrais bugs.
Comparer les stratégies d’agents sous la même contrainte black-box : Comme les entrées sont limitées au schéma + payload d’exemple, les différences de performance reflètent le raisonnement et la couverture des tests plutôt que l’accès à des informations supplémentaires.
Tester la robustesse structurelle (détection de bugs simples) : Les scénarios incluent des vérifications pour champs requis manquants, valeurs vides (ex. "", null, []), et types de données erronés — utile pour valider la gestion de base des requêtes.
Évaluer le raisonnement sur contraintes et validation (détection de bugs modérés) : Le benchmark inclut des cas comme des valeurs numériques hors plage et des formats de champs malformés (ex. email, code devise, format de date), plus des valeurs limites/non documentées d’enums.
Évaluer le raisonnement logique métier et multi-champs (détection de bugs complexes) : Certains scénarios requièrent de détecter des problèmes impliquant des champs mutuellement exclusifs, des remises appliquées à des commandes non éligibles, ou une validité de champ dépendante d’autres champs.

FAQ

Quelles entrées l’agent reçoit-il pour chaque scénario ?
L’agent reçoit exactement deux entrées : le schéma JSON de requête complet et un exemple de payload. Pas de schéma de réponse, détails d’implémentation, messages d’erreur ou autre documentation.

L’agent doit-il prédire les résultats attendus ?
Non. La suite de tests produite consiste en des cas de tests avec payloads de requête ; l’évaluation se fait en exécutant ces tests contre l’implémentation de référence live et en observant ce qui se passe.

Comment les bugs sont-ils représentés dans le benchmark ?
Chaque scénario contient plusieurs bugs plantés (entre 3 et 8), catégorisés par complexité : problèmes structurels simples, violations modérées de contraintes au niveau des champs, et relations complexes multi-champs ou sémantiques/logique métier.

Que mesure APIEval-20 : conformité au schéma ou découverte de bugs ?
Découverte de bugs. Bien que les informations de schéma soient fournies pour permettre la génération de tests, le benchmark est conçu pour tester si les tests de l’agent révèlent des bugs lors de l’exécution.

Alternatives

Génération de tests axée sur le schéma / vérificateurs de conformité au schéma : Ces outils se concentrent sur la validation que les requêtes générées correspondent à un schéma (ou qu’un système respecte un schéma). Ils diffèrent d’APIEval-20 en n’évaluant pas directement le comportement de détection de bugs sous contraintes black-box.
Frameworks et outils de test d’API conventionnels (ex. : outils de test de requêtes/contrats) : Ces workflows reposent généralement sur des cas de test écrits par des humains ou des connaissances supplémentaires. Par rapport à APIEval-20, ils n’évaluent pas la capacité d’un agent à générer des suites de tests ciblées à partir du seul schéma + exemple.
Benchmarks d’évaluation IA généraux pour la génération de code ou de texte : Certains évaluent la qualité de la sortie plutôt que l’efficacité des tests exécutables. APIEval-20 cible spécifiquement le comportement end-to-end d’un agent pour générer et exécuter des tests révélant des bugs.
Approches de test basé sur les propriétés d’API / fuzzing : Celles-ci peuvent explorer une API de manière large en générant de nombreux inputs, mais n’évaluent pas le processus de raisonnement de l’agent pour concevoir des tests ciblés à partir du schéma et des payloads d’exemple.

APIEval-20

Qu’est-ce qu’APIEval-20 ?

Fonctionnalités clés

Comment utiliser APIEval-20

Cas d’usage

FAQ

Alternatives

Alternatives

AakarDev AI

Arduino VENTUNO Q

Devin

open-codex-computer-use

Codex Plugins

Ably Chat