UStackUStack
APIEval-20 icon

APIEval-20

APIEval-20 è un benchmark per valutare agenti AI nella generazione di suite di test API black-box, con 20 scenari schema+payload.

APIEval-20

Cos'è APIEval-20?

APIEval-20 è un benchmark per compiti progettato per valutare agenti AI nella generazione di suite di test API in scenari reali con vincolo black-box. Invece di concentrarsi sulla qualità generale del modello o sulla conformità superficiale allo schema, misura se un agente è in grado di ragionare sulla superficie dell'API e generare test che scoprono realmente bug.

In ogni scenario, l'agente riceve solo uno schema di richiesta API e un payload di esempio—nessun codice sorgente, nessuna documentazione oltre quanto presente nello schema e nessuna conoscenza pregressa. La suite di test generata viene eseguita contro un'implementazione di riferimento live per osservare i bug esposti dai test.

Caratteristiche Principali

  • Benchmark per compiti di agenti AI (non un benchmark per modelli): Valuta il comportamento end-to-end dell'agente—progettazione dei test e scoperta di bug—piuttosto che la qualità della generazione di testo.
  • Set di 20 scenari tratti da domini reali: Gli scenari coprono e-commerce, pagamenti, autenticazione, gestione utenti, pianificazione, notifiche e pattern di ricerca/filtraggio.
  • Vincolo di input black-box: L'agente riceve esattamente due input per scenario—(1) lo schema JSON e (2) un payload di richiesta di esempio—senza schemi di risposta, dettagli di implementazione, messaggi di errore o changelog.
  • Spettro di bug con etichettatura basata sulla complessità: Ogni scenario include 3–8 bug intenzionali classificati per complessità di ragionamento: problemi strutturali semplici, violazioni moderate di vincoli di campo e interazioni complesse multi-campo/logica di business.
  • Formato di output della suite di test (casi di test solo richiesta): L'agente produce un elenco di casi di test, ciascuno con un nome di test breve e un payload di richiesta completo come JSON valido; non sono richiesti esiti attesi.

Come Usare APIEval-20

  1. Seleziona uno scenario dal benchmark APIEval-20. Ogni scenario fornisce uno schema JSON di richiesta API e un payload di esempio.
  2. Fornisci quei due input al tuo agente AI. Il benchmark è progettato appositamente affinché l'agente non possa fare affidamento su dettagli di implementazione o documentazione extra.
  3. Genera una suite di test: Fai in modo che l'agente produca casi di test in cui ciascun caso include un nome leggibile e un payload di richiesta JSON completo.
  4. Esegui i casi di test prodotti contro l'implementazione di riferimento live: La valutazione si basa su ciò che i test rivelano all'esecuzione, non su previsioni di esiti attesi da parte dell'agente.

Casi d'Uso

  • Valutare la capacità di un agente di generare test API significativi: Utile quando vuoi sapere se un agente va oltre la generazione formale basata sullo schema e produce test che rivelano bug reali.
  • Confrontare strategie di agenti con lo stesso vincolo black-box: Poiché gli input sono limitati a schema + payload di esempio, le differenze di performance riflettono il ragionamento sui test e la copertura, non l'accesso a informazioni aggiuntive.
  • Testare robustezza strutturale (rilevamento bug semplici): Gli scenari includono controlli per campi required mancanti, valori vuoti (es. "", null, []), tipi di dati errati—utili per validare la gestione base delle richieste.
  • Valutare ragionamento su vincoli e validazione (rilevamento bug moderati): Il benchmark include casi come valori numerici fuori range e formati di campo malformati (es. email, codice valuta, formato data), più valori enum boundary/non documentati.
  • Valutare ragionamento su logica di business e cross-campo (rilevamento bug complessi): Alcuni scenari richiedono di rilevare problemi con campi mutualmente esclusivi, sconti applicati a ordini non eleggibili o validità di campi dipendente da altri campi.

FAQ

Quali input riceve l'agente per ogni scenario?
L'agente riceve esattamente due input: lo schema JSON completo di richiesta e un esempio di payload. Non vengono forniti schemi di risposta, dettagli di implementazione, messaggi di errore o altra documentazione.

L'agente deve prevedere esiti attesi?
No. La suite di test prodotta consiste in casi di test con payload di richiesta; la valutazione avviene eseguendo quei test contro l'implementazione di riferimento live e osservando cosa accade.

Come sono rappresentati i bug nel benchmark?
Ogni scenario contiene più bug intenzionali (tra 3 e 8), categorizzati per complessità: problemi strutturali semplici, violazioni moderate di vincoli a livello di campo e relazioni complesse multi-campo o semantiche/logica di business.

Cosa valuta APIEval-20: conformità allo schema o ricerca di bug?
Ricerca di bug. Sebbene le informazioni sullo schema siano fornite per abilitare la generazione di test, il benchmark è progettato per testare se i test dell'agente scoprono bug all'esecuzione.

Alternative

  • Generazione di test focalizzata sullo schema / verifiche di conformità allo schema: Questi strumenti si concentrano sulla validazione che le richieste generate corrispondano a uno schema (o che un sistema lo segua). Differiscono da APIEval-20 perché non valutano direttamente il comportamento di individuazione bug in condizioni black-box.
  • Framework e tool convenzionali per test API (es. tool per test di request/contract): Questi flussi di lavoro si basano tipicamente su casi di test scritti da umani o conoscenze aggiuntive. Rispetto ad APIEval-20, potrebbero non valutare la capacità di un agente di generare suite di test mirate solo da schema + esempio.
  • Benchmark generali di valutazione AI per generazione di codice o testo: Alcuni benchmark valutano la qualità dell'output anziché l'efficacia di test eseguibili. APIEval-20 si concentra specificamente sul comportamento end-to-end dell'agente nella generazione ed esecuzione di test per esporre bug.
  • Approcci API property-based / fuzz testing: Questi possono esercitare un'API in modo ampio generando molti input, ma potrebbero non valutare il processo di ragionamento dell'agente per progettare test mirati da schema ed esempi payload.