APIEval-20

Cos'è APIEval-20?

APIEval-20 è un benchmark per compiti progettato per valutare agenti AI nella generazione di suite di test API in scenari reali con vincolo black-box. Invece di concentrarsi sulla qualità generale del modello o sulla conformità superficiale allo schema, misura se un agente è in grado di ragionare sulla superficie dell'API e generare test che scoprono realmente bug.

In ogni scenario, l'agente riceve solo uno schema di richiesta API e un payload di esempio—nessun codice sorgente, nessuna documentazione oltre quanto presente nello schema e nessuna conoscenza pregressa. La suite di test generata viene eseguita contro un'implementazione di riferimento live per osservare i bug esposti dai test.

Caratteristiche Principali

Benchmark per compiti di agenti AI (non un benchmark per modelli): Valuta il comportamento end-to-end dell'agente—progettazione dei test e scoperta di bug—piuttosto che la qualità della generazione di testo.
Set di 20 scenari tratti da domini reali: Gli scenari coprono e-commerce, pagamenti, autenticazione, gestione utenti, pianificazione, notifiche e pattern di ricerca/filtraggio.
Vincolo di input black-box: L'agente riceve esattamente due input per scenario—(1) lo schema JSON e (2) un payload di richiesta di esempio—senza schemi di risposta, dettagli di implementazione, messaggi di errore o changelog.
Spettro di bug con etichettatura basata sulla complessità: Ogni scenario include 3–8 bug intenzionali classificati per complessità di ragionamento: problemi strutturali semplici, violazioni moderate di vincoli di campo e interazioni complesse multi-campo/logica di business.
Formato di output della suite di test (casi di test solo richiesta): L'agente produce un elenco di casi di test, ciascuno con un nome di test breve e un payload di richiesta completo come JSON valido; non sono richiesti esiti attesi.

Come Usare APIEval-20

Seleziona uno scenario dal benchmark APIEval-20. Ogni scenario fornisce uno schema JSON di richiesta API e un payload di esempio.
Fornisci quei due input al tuo agente AI. Il benchmark è progettato appositamente affinché l'agente non possa fare affidamento su dettagli di implementazione o documentazione extra.
Genera una suite di test: Fai in modo che l'agente produca casi di test in cui ciascun caso include un nome leggibile e un payload di richiesta JSON completo.
Esegui i casi di test prodotti contro l'implementazione di riferimento live: La valutazione si basa su ciò che i test rivelano all'esecuzione, non su previsioni di esiti attesi da parte dell'agente.

Casi d'Uso

Valutare la capacità di un agente di generare test API significativi: Utile quando vuoi sapere se un agente va oltre la generazione formale basata sullo schema e produce test che rivelano bug reali.
Confrontare strategie di agenti con lo stesso vincolo black-box: Poiché gli input sono limitati a schema + payload di esempio, le differenze di performance riflettono il ragionamento sui test e la copertura, non l'accesso a informazioni aggiuntive.
Testare robustezza strutturale (rilevamento bug semplici): Gli scenari includono controlli per campi required mancanti, valori vuoti (es. "", null, []), tipi di dati errati—utili per validare la gestione base delle richieste.
Valutare ragionamento su vincoli e validazione (rilevamento bug moderati): Il benchmark include casi come valori numerici fuori range e formati di campo malformati (es. email, codice valuta, formato data), più valori enum boundary/non documentati.
Valutare ragionamento su logica di business e cross-campo (rilevamento bug complessi): Alcuni scenari richiedono di rilevare problemi con campi mutualmente esclusivi, sconti applicati a ordini non eleggibili o validità di campi dipendente da altri campi.

FAQ

Quali input riceve l'agente per ogni scenario?
L'agente riceve esattamente due input: lo schema JSON completo di richiesta e un esempio di payload. Non vengono forniti schemi di risposta, dettagli di implementazione, messaggi di errore o altra documentazione.

L'agente deve prevedere esiti attesi?
No. La suite di test prodotta consiste in casi di test con payload di richiesta; la valutazione avviene eseguendo quei test contro l'implementazione di riferimento live e osservando cosa accade.

Come sono rappresentati i bug nel benchmark?
Ogni scenario contiene più bug intenzionali (tra 3 e 8), categorizzati per complessità: problemi strutturali semplici, violazioni moderate di vincoli a livello di campo e relazioni complesse multi-campo o semantiche/logica di business.

Cosa valuta APIEval-20: conformità allo schema o ricerca di bug?
Ricerca di bug. Sebbene le informazioni sullo schema siano fornite per abilitare la generazione di test, il benchmark è progettato per testare se i test dell'agente scoprono bug all'esecuzione.

Alternative

Generazione di test focalizzata sullo schema / verifiche di conformità allo schema: Questi strumenti si concentrano sulla validazione che le richieste generate corrispondano a uno schema (o che un sistema lo segua). Differiscono da APIEval-20 perché non valutano direttamente il comportamento di individuazione bug in condizioni black-box.
Framework e tool convenzionali per test API (es. tool per test di request/contract): Questi flussi di lavoro si basano tipicamente su casi di test scritti da umani o conoscenze aggiuntive. Rispetto ad APIEval-20, potrebbero non valutare la capacità di un agente di generare suite di test mirate solo da schema + esempio.
Benchmark generali di valutazione AI per generazione di codice o testo: Alcuni benchmark valutano la qualità dell'output anziché l'efficacia di test eseguibili. APIEval-20 si concentra specificamente sul comportamento end-to-end dell'agente nella generazione ed esecuzione di test per esporre bug.
Approcci API property-based / fuzz testing: Questi possono esercitare un'API in modo ampio generando molti input, ma potrebbero non valutare il processo di ragionamento dell'agente per progettare test mirati da schema ed esempi payload.

APIEval-20

Cos'è APIEval-20?

Caratteristiche Principali

Come Usare APIEval-20

Casi d'Uso

FAQ

Alternative

Alternative

AakarDev AI

Arduino VENTUNO Q

Devin

open-codex-computer-use

Codex Plugins

Ably Chat