APIEval-20
APIEval-20 è un benchmark per valutare agenti AI nella generazione di suite di test API black-box, con 20 scenari schema+payload.
Cos'è APIEval-20?
APIEval-20 è un benchmark per compiti progettato per valutare agenti AI nella generazione di suite di test API in scenari reali con vincolo black-box. Invece di concentrarsi sulla qualità generale del modello o sulla conformità superficiale allo schema, misura se un agente è in grado di ragionare sulla superficie dell'API e generare test che scoprono realmente bug.
In ogni scenario, l'agente riceve solo uno schema di richiesta API e un payload di esempio—nessun codice sorgente, nessuna documentazione oltre quanto presente nello schema e nessuna conoscenza pregressa. La suite di test generata viene eseguita contro un'implementazione di riferimento live per osservare i bug esposti dai test.
Caratteristiche Principali
- Benchmark per compiti di agenti AI (non un benchmark per modelli): Valuta il comportamento end-to-end dell'agente—progettazione dei test e scoperta di bug—piuttosto che la qualità della generazione di testo.
- Set di 20 scenari tratti da domini reali: Gli scenari coprono e-commerce, pagamenti, autenticazione, gestione utenti, pianificazione, notifiche e pattern di ricerca/filtraggio.
- Vincolo di input black-box: L'agente riceve esattamente due input per scenario—(1) lo schema JSON e (2) un payload di richiesta di esempio—senza schemi di risposta, dettagli di implementazione, messaggi di errore o changelog.
- Spettro di bug con etichettatura basata sulla complessità: Ogni scenario include 3–8 bug intenzionali classificati per complessità di ragionamento: problemi strutturali semplici, violazioni moderate di vincoli di campo e interazioni complesse multi-campo/logica di business.
- Formato di output della suite di test (casi di test solo richiesta): L'agente produce un elenco di casi di test, ciascuno con un nome di test breve e un payload di richiesta completo come JSON valido; non sono richiesti esiti attesi.
Come Usare APIEval-20
- Seleziona uno scenario dal benchmark APIEval-20. Ogni scenario fornisce uno schema JSON di richiesta API e un payload di esempio.
- Fornisci quei due input al tuo agente AI. Il benchmark è progettato appositamente affinché l'agente non possa fare affidamento su dettagli di implementazione o documentazione extra.
- Genera una suite di test: Fai in modo che l'agente produca casi di test in cui ciascun caso include un nome leggibile e un payload di richiesta JSON completo.
- Esegui i casi di test prodotti contro l'implementazione di riferimento live: La valutazione si basa su ciò che i test rivelano all'esecuzione, non su previsioni di esiti attesi da parte dell'agente.
Casi d'Uso
- Valutare la capacità di un agente di generare test API significativi: Utile quando vuoi sapere se un agente va oltre la generazione formale basata sullo schema e produce test che rivelano bug reali.
- Confrontare strategie di agenti con lo stesso vincolo black-box: Poiché gli input sono limitati a schema + payload di esempio, le differenze di performance riflettono il ragionamento sui test e la copertura, non l'accesso a informazioni aggiuntive.
- Testare robustezza strutturale (rilevamento bug semplici): Gli scenari includono controlli per campi required mancanti, valori vuoti (es. "", null, []), tipi di dati errati—utili per validare la gestione base delle richieste.
- Valutare ragionamento su vincoli e validazione (rilevamento bug moderati): Il benchmark include casi come valori numerici fuori range e formati di campo malformati (es. email, codice valuta, formato data), più valori enum boundary/non documentati.
- Valutare ragionamento su logica di business e cross-campo (rilevamento bug complessi): Alcuni scenari richiedono di rilevare problemi con campi mutualmente esclusivi, sconti applicati a ordini non eleggibili o validità di campi dipendente da altri campi.
FAQ
Quali input riceve l'agente per ogni scenario?
L'agente riceve esattamente due input: lo schema JSON completo di richiesta e un esempio di payload. Non vengono forniti schemi di risposta, dettagli di implementazione, messaggi di errore o altra documentazione.
L'agente deve prevedere esiti attesi?
No. La suite di test prodotta consiste in casi di test con payload di richiesta; la valutazione avviene eseguendo quei test contro l'implementazione di riferimento live e osservando cosa accade.
Come sono rappresentati i bug nel benchmark?
Ogni scenario contiene più bug intenzionali (tra 3 e 8), categorizzati per complessità: problemi strutturali semplici, violazioni moderate di vincoli a livello di campo e relazioni complesse multi-campo o semantiche/logica di business.
Cosa valuta APIEval-20: conformità allo schema o ricerca di bug?
Ricerca di bug. Sebbene le informazioni sullo schema siano fornite per abilitare la generazione di test, il benchmark è progettato per testare se i test dell'agente scoprono bug all'esecuzione.
Alternative
- Generazione di test focalizzata sullo schema / verifiche di conformità allo schema: Questi strumenti si concentrano sulla validazione che le richieste generate corrispondano a uno schema (o che un sistema lo segua). Differiscono da APIEval-20 perché non valutano direttamente il comportamento di individuazione bug in condizioni black-box.
- Framework e tool convenzionali per test API (es. tool per test di request/contract): Questi flussi di lavoro si basano tipicamente su casi di test scritti da umani o conoscenze aggiuntive. Rispetto ad APIEval-20, potrebbero non valutare la capacità di un agente di generare suite di test mirate solo da schema + esempio.
- Benchmark generali di valutazione AI per generazione di codice o testo: Alcuni benchmark valutano la qualità dell'output anziché l'efficacia di test eseguibili. APIEval-20 si concentra specificamente sul comportamento end-to-end dell'agente nella generazione ed esecuzione di test per esporre bug.
- Approcci API property-based / fuzz testing: Questi possono esercitare un'API in modo ampio generando molti input, ma potrebbero non valutare il processo di ragionamento dell'agente per progettare test mirati da schema ed esempi payload.
Alternative
AakarDev AI
AakarDev AI è una piattaforma potente che semplifica lo sviluppo di applicazioni AI con integrazione fluida dei database vettoriali, consentendo un rapido deployment e scalabilità.
Arduino VENTUNO Q
Arduino VENTUNO Q è un edge AI computer per robotica: unisce inferenza AI e microcontrollore per controllo deterministico, con sviluppo in Arduino App Lab.
Devin
Devin è un agente AI per la programmazione che aiuta i team software a completare migrazioni e grandi refactoring eseguendo sottotask in parallelo, con approvazione umana.
open-codex-computer-use
open-codex-computer-use è un servizio open-source “Computer Use” in wrapper MCP per far eseguire azioni GUI agli agenti su macOS, Linux e Windows.
Codex Plugins
Usa Codex Plugins per combinare skill, integrazioni app e server MCP in workflow riutilizzabili: estendi Codex per lavorare con Gmail, Google Drive e Slack.
Ably Chat
Ably Chat è un’API e SDK per chat realtime: crea applicazioni personalizzate con reazioni, presenza e modifica/eliminazione dei messaggi.