UStackUStack
BenchSpan icon

BenchSpan

BenchSpan запускает AI agent бенчмарки параллельно, фиксирует результаты и ошибки в истории прогонов, помогает воспроизводить их по commit hash.

BenchSpan

Что такое BenchSpan?

BenchSpan помогает командам запускать бенчмарки AI-агентов быстрее, воспроизводимее и проще для обмена. Вместо ручной интеграции агента в разные бенчмарк-харнессы и копирования результатов в разбросанные файлы BenchSpan стандартизирует выполнение бенчмарков и собирает оценки, ошибки и время в организованную историю прогонов.

Его основная цель — сократить время и затраты на запуск наборов бенчмарков (включая крупные свипы вроде сотен инстансов), повышая доверие к результатам за счёт привязки прогонов к commit hash агента и упрощения сравнения прогонов бок о бок.

Ключевые возможности

  • Бенчмарк-раннер, стандартизирующий настройку агента через shell-скрипт: BenchSpan запускает агентов, стартующие через bash-команду, минимизируя glue-код и работу с интерфейсами харнессов.
  • Библиотека бенчмарков плюс BYO-бенчмарки: Можно выбрать из встроенного набора бенчмарков или использовать свой.
  • Параллельное выполнение в изолированных Docker-контейнерах: Каждый инстанс бенчмарка запускается в своём Docker-контейнере и может выполняться параллельно, ускоряя завершение крупных наборов.
  • Автоматический захват и организация результатов: BenchSpan фиксирует оценки, траектории, ошибки и время, организуя их для последующего сравнения.
  • Прогон с тегами commit для воспроизводимости и сравнения: Результаты помечаются commit hash агента, чтобы команды могли сравнивать прогоны и знать, какой код дал те или иные цифры.
  • Перезапуск только неудачных инстансов: Если прогоны частично провалились (например, из-за сетевых ошибок или лимитов), можно перезапустить только неудачную подмножество, а не всё заново.

Как использовать BenchSpan

  1. Подключите агента, написав bash-скрипт для его запуска, и укажите BenchSpan на него.
  2. Выберите бенчмарк из библиотеки BenchSpan или используйте свой.
  3. Запустите набор, задав число инстансов и стартовав прогон; BenchSpan выполнит инстансы параллельно в Docker-контейнерах.
  4. Просмотрите результаты в организованном выводе, сравните прогоны по тегам commit hash. Если инстансы провалились, перезапустите только их.

Сценарии использования

  • Сравнение итераций агента в разработке: Запустите набор бенчмарков после обновления промптов или кода агента, сравните resolve rates и паттерны ошибок по коммитам.
  • Масштабирование SWE-оценок на сотни инстансов: Выполняйте крупные наборы бенчмарков, непрактичные для последовательного запуска, где параллельные Docker ускоряют общее время.
  • Восстановление от частичных сбоев без перезапуска: При сбоях инстансов из-за лимитов или таймаутов перезапустите только неудачные, а не весь набор.
  • Командная работа над бенчмарк-утверждениями: Поделитесь записью одного прогона с командой, чтобы результаты не терялись в спредшитах или чатах.
  • Тестирование агентов с разными промптами или конфигурациями: Отслеживайте, какой промпт и commit дали результаты, через теги commit, избегая споров о «какой конфиг использовался».

FAQ

  • Каких агентов поддерживает BenchSpan? Сайт указывает, что «любой агент, запускаемый через bash», подойдёт — стартуйте агента shell-командой, и BenchSpan интегрируется через неё.

  • Бенчмарки выполняются последовательно или параллельно? BenchSpan запускает инстансы бенчмарков параллельно, каждый в изолированном Docker-контейнере.

  • Как BenchSpan обрабатывает неудачные прогоны? Если инстансы провалились, BenchSpan позволяет перезапустить только их, без полного рестарта набора.

  • Как организованы результаты для сравнения? Результаты (оценки, траектории, ошибки, время) фиксируются, организуются и помечаются commit hash агента для сравнения бок о бок.

Альтернативы

  • Локальные или одомашиные скрипты бенчмарков: Запуск тестовых наборов на ноутбуке может быть проще на старте, но процесс медленнее, а результаты часто остаются разрозненными, если не создать собственные инструменты для отслеживания и воспроизводимости.
  • Ручная оркестрация с Docker и кастомным связующим кодом: Можно параллелизовать с помощью контейнеров и писать связующий код для каждого бенчмарка, но всё равно придётся реализовывать адаптеры интерфейсов, логику возобновления и централизованную историю результатов.
  • Ад-хок логирование результатов в таблицы/Notion/Slack: Копирование чисел в общие документы подходит для мелких экспериментов, но не даёт стандартизированного управления прогонами, истории по commit или структурированных сравнений автоматически.

Альтернативы

AakarDev AI icon

AakarDev AI

AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.

Edgee icon

Edgee

Edgee — edge-native AI gateway: сжимает промпты перед LLM-провайдерами и дает единый OpenAI-compatible API для маршрутизации 200+ моделей.

LobeHub icon

LobeHub

LobeHub — это платформа с открытым исходным кодом, предназначенная для создания, развертывания и совместной работы с командами ИИ-агентов, функционирующая как универсальный веб-интерфейс для LLM.

Claude Opus 4.5 icon

Claude Opus 4.5

Представляем лучшую модель в мире для кодирования, агентов, использования компьютеров и корпоративных рабочих процессов.

Sleek Analytics icon

Sleek Analytics

Sleek Analytics — легкая аналитика с приватным подходом и实时-трекингом посетителей: откуда приходят, что смотрят и сколько времени проводят.

Codex Plugins icon

Codex Plugins

Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.

BenchSpan | UStack