UStackUStack
ReasoningBank icon

ReasoningBank

ReasoningBank — фреймворк памяти агентов, который извлекает повторно используемые стратегии из успехов и ошибок для web browsing и software engineering.

ReasoningBank

Что такое ReasoningBank?

ReasoningBank — это новый фреймворк памяти агентов, который помогает развернутым агентам учиться как на успешном, так и на неудачном опыте. Он предназначен для долгоживущих агентов, которым нужно улучшаться со временем, а не рассматривать каждую задачу как изолированную попытку.

Фреймворк хранит структурированные воспоминания, фиксирующие обобщаемые стратегии рассуждения, а не только полные трассы действий. Эти воспоминания извлекаются перед действием, обновляются после завершения задачи и используются для поддержки самоэволюции во время тестирования в агентных рабочих процессах.

Ключевые возможности

  • Структурированные элементы памяти: каждая память включает заголовок, краткое описание и сжатое содержание, что делает накопленный опыт проще для повторного использования, чем сырую траекторию.
  • Извлечение перед действием: агент обращается к ReasoningBank перед выполнением действия, чтобы релевантные прошлые стратегии влияли на следующую попытку.
  • Извлечение из успехов и ошибок: фреймворк превращает успешные прогоны в повторно используемые тактики, а неудачные — в предостерегающие уроки и контрфактические сигналы.
  • Замкнутый цикл извлечения, отбора и консолидации: ReasoningBank построен как непрерывный процесс памяти, который обновляется после каждого взаимодействия.
  • Самооценка с помощью LLM-as-a-judge: система может оценивать траектории и извлекать выводы, даже если оценка не идеально точна.
  • Учет памяти при масштабировании на этапе тестирования: ReasoningBank может использовать несколько траекторий исследования, чтобы извлекать более сильные воспоминания из поиска на этапе инференса и self-contrast.

Как использовать ReasoningBank

Типичный рабочий процесс начинается с подключения ReasoningBank к агенту, который выполняет задачи вроде web browsing или software engineering. Перед каждым действием агент извлекает из банка релевантные воспоминания и использует их как контекст.

После выполнения задачи агент оценивает траекторию, извлекает полезные стратегии или выводы из ошибок и добавляет их как новые структурированные воспоминания. Со временем это формирует хранилище общих уроков, которые агент может повторно использовать в более поздних задачах.

Сценарии использования

  • Агенты для web browsing: используют прошлый опыт просмотра веба, чтобы избегать повторяющихся ошибок навигации и повторно применять эффективные стратегии поиска или взаимодействия со страницами.
  • Агенты для software engineering: фиксируют уроки из изучения кодовой базы, отладки и выполнения задач, чтобы агент мог работать эффективнее при повторяющихся заданиях.
  • Непрерывная автоматизация задач: поддерживают агентов, которые работают постоянно и должны улучшаться по мере столкновения с новыми рабочими процессами и крайними случаями.
  • Исследование на этапе инференса: сжимают несколько кандидатных траекторий в воспоминания при использовании методов масштабирования на этапе тестирования.
  • Анализ ошибок для агентов: превращают неудачные попытки в защитные ограничения, например избегая ловушек, которые приводили к циклам или пропущенным шагам.

FAQ

Какой тип памяти хранит ReasoningBank?
Он хранит структурированные воспоминания, которые суммируют стратегии рассуждения, рациональные основания решений и операционные выводы, а не только полные логи действий.

Он учится только на успешных прогонах?
Нет. Ключевая часть ReasoningBank в том, что он также анализирует неудачный опыт и превращает его в профилактические уроки.

Требует ли система идеальной самооценки?
Нет. В источнике отмечается, что фреймворк устойчив даже тогда, когда LLM-based judgment не идеально точен.

На каких задачах он оценивался?
Источник указывает, что он оценивался на бенчмарках web browsing и software engineering.

Является ли ReasoningBank самостоятельной моделью?
Нет. Он описывается как фреймворк памяти агентов, который работает вместе с агентом во время тестирования.

Альтернативы

  • Системы памяти траекторий: хранят подробную историю действий, что может сохранять больше сырого контекста, но не всегда так же прямо выделяет стратегии более высокого уровня.
  • Системы памяти рабочих процессов, ориентированные на успешные прогоны: суммируют только успешные workflow, что может быть проще, но может упускать сигналы обучения из ошибок.
  • Общие слои памяти для агентов: более широкие системы памяти для агентов могут делать акцент на извлечении прошлых взаимодействий, но не обязательно на структурированном извлечении рассуждений как из успехов, так и из ошибок.
  • Настройки агентов без памяти: агенты без постоянной памяти проще в реализации, но не накапливают повторно используемые уроки между задачами.

Альтернативы

AakarDev AI icon

AakarDev AI

AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.

Arduino VENTUNO Q icon

Arduino VENTUNO Q

Arduino VENTUNO Q — edge AI компьютер для робототехники: ускоренный вывод нейросетей и микроконтроллер для детерминированного управления. Через Arduino App Lab.

Devin icon

Devin

Devin — AI coding-агент для команд: помогает завершать миграции и крупные рефакторинги, выполняя подзадачи параллельно под контролем инженеров.

Lasso icon

Lasso

Lasso — AI-first PIM для команд e-commerce: обогащает атрибуты и описания, обрабатывает данные поставщиков и мониторит конкурентов через приложение или API.

Codex Plugins icon

Codex Plugins

Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.

Struere icon

Struere

Struere — AI-native операционная система вместо таблиц: структурированные приложения с дашбордами, алертами и автоматизациями для задач и процессов.