UStackUStack
APIEval-20 icon

APIEval-20

APIEval-20 ist ein Task-Benchmark zur Bewertung von KI-Agenten: 20 Schema- und Payload-Szenarien für Black-Box API-Testgenerierung und Bug-Finding.

APIEval-20

Was ist APIEval-20?

APIEval-20 ist ein Task-Benchmark zur Bewertung von KI-Agenten bei der Generierung realer API-Test-Suiten unter Black-Box-Bedingungen. Statt allgemeiner Modellqualität oder oberflächlicher Schema-Konformität zu prüfen, misst er, ob ein Agent über eine API-Oberfläche nachdenken und Tests erzeugen kann, die tatsächliche Bugs aufdecken.

In jedem Szenario erhält der Agent nur ein API-Request-Schema und ein Beispiel-Payload – kein Quellcode, keine Dokumentation über das Schema hinaus und kein Vorwissen. Die generierte Test-Suite wird dann gegen eine live Referenzimplementierung ausgeführt, um die aufgedeckten Bugs zu beobachten.

Wichtige Merkmale

  • Task-Benchmark für KI-Agenten (kein Modell-Benchmark): Bewertet das End-to-End-Verhalten des Agenten – Test-Design und Bug-Entdeckung – statt Textgenerierungsqualität.
  • 20 Szenarien aus realen Domänen: Szenarien umfassen E-Commerce, Zahlungen, Authentifizierung, Benutzerverwaltung, Planung, Benachrichtigungen und Such-/Filtermuster.
  • Black-Box-Eingabebeschränkung: Der Agent erhält pro Szenario genau zwei Eingaben – (1) das JSON-Schema und (2) ein Beispiel-Request-Payload – ohne Response-Schemas, Implementierungsdetails, Fehlermeldungen oder Changelogs.
  • Bug-Spektrum mit Komplexitätskennzeichnung: Jedes Szenario enthält 3–8 eingepflanzte Bugs, klassifiziert nach Reasoning-Komplexität: einfache strukturelle Probleme, moderate Feld-Constraint-Verstöße und komplexe Mehrfeld-/Business-Logic-Interaktionen.
  • Test-Suite-Ausgabeformat (request-only Testfälle): Der Agent erzeugt eine Liste von Testfällen, jeweils mit kurzem Testnamen und vollständigem Request-Payload als gültiges JSON; keine erwarteten Outcomes erforderlich.

So verwenden Sie APIEval-20

  1. Wählen Sie ein Szenario aus dem APIEval-20-Benchmark. Jedes Szenario liefert ein API-Request-JSON-Schema und ein Beispiel-Payload.
  2. Geben Sie diese zwei Eingaben an Ihren KI-Agenten. Der Benchmark ist so gestaltet, dass der Agent nicht auf Implementierungsdetails oder zusätzliche Dokumentation zurückgreifen kann.
  3. Generieren Sie eine Test-Suite: Lassen Sie den Agenten Testfälle ausgeben, wobei jeder Fall einen lesbaren Namen und ein vollständiges JSON-Request-Payload enthält.
  4. Führen Sie die erzeugten Testfälle gegen die live Referenzimplementierung aus: Die Bewertung basiert darauf, was die Tests bei Ausführung enthüllen, nicht darauf, ob der Agent erwartete Outcomes vorhersagt.

Anwendungsfälle

  • Bewertung der Fähigkeit eines Agenten, sinnvolle API-Tests zu generieren: Nützlich, um zu prüfen, ob ein Agent über schema-formale Generierung hinausgeht und Tests erzeugt, die echte Bugs aufdecken.
  • Vergleich von Agenten-Strategien unter gleicher Black-Box-Bedingung: Da die Eingaben auf Schema + Beispiel-Payload beschränkt sind, spiegeln Leistungsunterschiede Test-Reasoning und Abdeckung wider, nicht Zugang zu zusätzlichen Informationen.
  • Test auf strukturelle Robustheit (einfache Bug-Erkennung): Szenarien prüfen fehlende Pflichtfelder, leere Werte (z. B. "", null, []), falsche Datentypen – hilfreich zur Validierung der Basis-Request-Verarbeitung.
  • Bewertung von Constraint- und Validierungs-Reasoning (moderate Bug-Erkennung): Der Benchmark umfasst Fälle wie Werte außerhalb des Bereichs, fehlerhafte Feldformate (z. B. E-Mail, Währungscode, Datumsformat) sowie Grenz-/undokumentierte Enum-Werte.
  • Bewertung von Business-Logic- und Cross-Field-Reasoning (komplexe Bug-Erkennung): Einige Szenarien erfordern die Erkennung von Problemen mit mutual exklusiven Feldern, Rabatten auf unzulässige Bestellungen oder feldabhängiger Gültigkeit.

FAQ

Welche Eingaben erhält der Agent pro Szenario?
Der Agent erhält genau zwei Eingaben: das vollständige Request-JSON-Schema und ein Beispiel-Payload. Kein Response-Schema, Implementierungsdetails, Fehlermeldungen oder andere Dokumentation werden bereitgestellt.

Muss der Agent erwartete Outcomes vorhersagen?
Nein. Die erzeugte Test-Suite besteht aus Testfällen mit Request-Payloads; die Bewertung erfolgt durch Ausführen dieser Tests gegen die live Referenzimplementierung und Beobachtung der Ergebnisse.

Wie sind Bugs im Benchmark dargestellt?
Jedes Szenario enthält mehrere eingepflanzte Bugs (zwischen 3 und 8), kategorisiert nach Komplexität: einfache strukturelle Probleme, moderate Feld-Constraint-Verstöße und komplexe Mehrfeld- oder semantische/Business-Logic-Beziehungen.

Was bewertet APIEval-20: Schema-Konformität oder Bug-Finding?
Bug-Finding. Während Schema-Informationen zur Testgenerierung bereitgestellt werden, testet der Benchmark, ob die Tests des Agenten bei Ausführung Bugs aufdecken.

Alternativen

  • Schema-fokussierte Testgenerierung / Schema-Konformitätsprüfer: Diese zielen auf die Validierung ab, dass generierte Anfragen einem Schema entsprechen (oder ein System einem Schema folgt). Sie unterscheiden sich von APIEval-20 dadurch, dass sie das Bug-Finding-Verhalten unter Black-Box-Bedingungen nicht direkt bewerten.
  • Konventionelle API-Testframeworks und -Tools (z. B. Request-/Contract-Test-Tools): Diese Workflows basieren meist auf manuell erstellten Testfällen oder zusätzlichem Wissen. Im Vergleich zu APIEval-20 bewerten sie nicht die Fähigkeit eines Agenten, zielgerichtete Testsuits allein aus Schema + Beispiel zu generieren.
  • Allgemeine KI-Benchmarks zur Bewertung von Code- oder Textgenerierung: Einige Benchmarks prüfen die Ausgabequalität, nicht die Wirksamkeit ausführbarer Tests. APIEval-20 zielt speziell auf das End-to-End-Verhalten von Agenten bei der Generierung und Ausführung von Tests zur Fehlersuche ab.
  • API-Property-based / Fuzz-Testing-Ansätze: Diese können eine API breit durch viele Eingaben testen, bewerten aber möglicherweise nicht den Reasoning-Prozess des Agenten bei der Gestaltung zielgerichteter Tests aus Schema und Beispiel-Payloads.