APIEval-20
APIEval-20은 블랙박스 제약에서 AI 에이전트의 API 테스트 생성 능력을 평가하는 태스크 벤치마크로, 20개 스키마·페이로드 시나리오를 제공합니다.
APIEval-20이란?
APIEval-20은 블랙박스 제약 하에서 AI 에이전트의 실제 API 테스트 스위트 생성 능력을 평가하도록 설계된 태스크 벤치마크입니다. 일반적인 모델 품질이나 표면적인 스키마 준수에 초점을 맞추는 대신, 에이전트가 API 표면에 대해 추론하고 실제 버그를 드러내는 테스트를 생성할 수 있는지를 측정합니다.
각 시나리오에서 에이전트는 API 요청 스키마와 샘플 페이로드만 받습니다—소스 코드 없음, 스키마 외 문서 없음, 사전 지식 없음. 생성된 테스트 스위트는 라이브 참조 구현체에서 실행되어 테스트가 노출시키는 버그를 관찰합니다.
주요 기능
- AI 에이전트용 태스크 벤치마크 (모델 벤치마크 아님): 텍스트 생성 품질이 아닌 엔드투엔드 에이전트 행동—테스트 설계 및 버그 발견—을 평가합니다.
- 실제 도메인에서 추출한 20개 시나리오 세트: 시나리오는 전자상거래, 결제, 인증, 사용자 관리, 스케줄링, 알림, 검색/필터링 패턴을 다룹니다.
- 블랙박스 입력 제약: 시나리오당 정확히 두 입력만 제공—(1) JSON 스키마와 (2) 샘플 요청 페이로드—응답 스키마, 구현 세부사항, 오류 메시지, 변경 로그 없음.
- 복잡도 기반 라벨링된 버그 스펙트럼: 각 시나리오는 3~8개의 planted 버그를 포함하며, 추론 복잡도별 분류: 단순 구조 문제, 중간 필드 제약 위반, 복잡한 다중 필드/비즈니스 로직 상호작용.
- 테스트 스위트 출력 형식 (요청 전용 테스트 케이스): 에이전트는 짧은 테스트 이름과 완전한 JSON 요청 페이로드를 가진 테스트 케이스 목록을 생성; 예상 결과 불필요.
APIEval-20 사용 방법
- APIEval-20 벤치마크에서 시나리오 선택. 각 시나리오는 API 요청 JSON 스키마와 샘플 페이로드를 제공합니다.
- AI 에이전트에 이 두 입력 제공. 벤치마크는 에이전트가 구현 세부사항이나 추가 문서에 의존하지 못하도록 특별 설계되었습니다.
- 테스트 스위트 생성: 에이전트가 읽기 쉬운 이름과 완전한 JSON 요청 페이로드를 포함한 테스트 케이스를 출력하도록 합니다.
- 생성된 테스트 케이스를 라이브 참조 구현체에서 실행: 평가는 에이전트의 예상 결과 예측이 아닌 실행 시 테스트가 드러내는 내용에 기반합니다.
사용 사례
- 에이전트의 의미 있는 API 테스트 생성 능력 평가: 스키마 형식 생성을 넘어 실제 버그를 드러내는 테스트를 생성할 수 있는지 확인할 때 유용합니다.
- 동일 블랙박스 제약 하 에이전트 전략 비교: 입력이 스키마 + 예시 페이로드로 제한되어 성능 차이는 추가 정보 접근이 아닌 테스트 추론 및 커버리지를 반영합니다.
- 구조적 견고성 테스트 (단순 버그 탐지): 필수 필드 누락, 빈 값 (예: "", null, []), 잘못된 데이터 타입 체크를 포함—기본 요청 처리 유효성 검사에 유용.
- 제약 및 유효성 추론 평가 (중간 버그 탐지): 범위 초과 숫자 값, 잘못된 필드 형식 (예: 이메일, 통화 코드, 날짜 형식), 경계/비공식 enum 값 등의 케이스 포함.
- 비즈니스 로직 및 교차 필드 추론 평가 (복잡 버그 탐지): 상호 배타적 필드, 부적격 주문 할인 적용, 다른 필드에 의존적 필드 유효성 등의 문제 탐지 필요 시나리오 포함.
자주 묻는 질문
각 시나리오에서 에이전트가 받는 입력은? 정확히 두 입력: 전체 요청 JSON 스키마와 샘플 페이로드 예시. 응답 스키마, 구현 세부사항, 오류 메시지, 기타 문서 제공 안 함.
에이전트가 예상 결과를 예측해야 하나요? 아니요. 생성된 테스트 스위트는 요청 페이로드를 가진 테스트 케이스로 구성; 라이브 참조 구현체에서 테스트 실행 및 결과 관찰로 평가.
벤치마크에서 버그는 어떻게 표현되나요? 각 시나리오는 3~8개의 planted 버그를 포함하며, 복잡도별 분류: 단순 구조 문제, 중간 필드 수준 제약 위반, 복잡 다중 필드 또는 의미/비즈니스 로직 관계.
APIEval-20이 평가하는 것은 스키마 준수인가 버그 탐지인가요? 버그 탐지. 테스트 생성을 위한 스키마 정보는 제공되지만, 벤치마크는 에이전트 테스트가 실행 시 버그를 드러내는지 테스트하도록 설계되었습니다.
대안
- 스키마 중심 테스트 생성 / 스키마 준수 검사 도구: 생성된 요청이 스키마와 일치하는지(또는 시스템이 스키마를 따르는지) 검증하는 데 초점을 맞춥니다. APIEval-20과 달리 블랙박스 제약 하에서의 버그 발견 행동을 직접 평가하지 않습니다.
- 전통적인 API 테스트 프레임워크 및 도구 (예: 요청/계약 테스트 도구): 이러한 워크플로는 일반적으로 사람이 작성한 테스트 케이스나 추가 지식에 의존합니다. APIEval-20에 비해 스키마 + 예시만으로 타겟 테스트 스위트를 생성하는 에이전트의 능력을 평가하지 않을 수 있습니다.
- 코드 또는 텍스트 생성을 위한 일반 AI 평가 벤치마크: 일부 벤치마크는 실행 가능한 테스트 효과성보다는 출력 품질을 평가합니다. APIEval-20은 버그를 노출하기 위해 테스트를 생성하고 실행하는 엔드투엔드 에이전트 행동을 구체적으로 타겟으로 합니다.
- API 속성 기반 / 퍼즈 테스트 접근법: 많은 입력을 생성하여 API를 광범위하게 테스트할 수 있지만, 스키마와 예시 페이로드로부터 타겟 테스트를 설계하는 에이전트의 추론 과정을 평가하지 않을 수 있습니다.
대안
AakarDev AI
AakarDev AI는 원활한 벡터 데이터베이스 통합을 통해 AI 애플리케이션 개발을 간소화하는 강력한 플랫폼으로, 신속한 배포와 확장성을 가능하게 합니다.
Arduino VENTUNO Q
Arduino VENTUNO Q는 로보틱스용 엣지 AI 컴퓨터로, AI 추론 하드웨어와 마이크로컨트롤러 제어를 한 보드에 통합합니다. Arduino App Lab로 개발 워크플로 제공
Devin
Devin은 AI 코딩 에이전트로 코드 마이그레이션과 대규모 리팩터링을 서브태스크 병렬로 수행해요. 엔지니어 승인 하에 진행
open-codex-computer-use
open-codex-computer-use는 MCP 서버로 감싼 오픈소스 “Computer Use” 서비스로, AI 에이전트가 macOS·Linux·Windows에서 데스크톱 GUI 작업 실행 지원
Codex Plugins
Codex Plugins로 스킬, 앱 통합, MCP 서버를 재사용 워크플로로 묶어 Gmail·Google Drive·Slack 같은 도구 접근을 확장하세요.
Ably Chat
Ably Chat은 실시간 채팅 API와 SDK로 맞춤형 채팅 앱을 구축합니다. 반응, 존재감, 메시지 편집/삭제를 포함해 대규모 실시간에 최적화