ReasoningBank
ReasoningBank — фреймворк памяти агентов, который извлекает повторно используемые стратегии из успехов и ошибок для web browsing и software engineering.
Что такое ReasoningBank?
ReasoningBank — это новый фреймворк памяти агентов, который помогает развернутым агентам учиться как на успешном, так и на неудачном опыте. Он предназначен для долгоживущих агентов, которым нужно улучшаться со временем, а не рассматривать каждую задачу как изолированную попытку.
Фреймворк хранит структурированные воспоминания, фиксирующие обобщаемые стратегии рассуждения, а не только полные трассы действий. Эти воспоминания извлекаются перед действием, обновляются после завершения задачи и используются для поддержки самоэволюции во время тестирования в агентных рабочих процессах.
Ключевые возможности
- Структурированные элементы памяти: каждая память включает заголовок, краткое описание и сжатое содержание, что делает накопленный опыт проще для повторного использования, чем сырую траекторию.
- Извлечение перед действием: агент обращается к ReasoningBank перед выполнением действия, чтобы релевантные прошлые стратегии влияли на следующую попытку.
- Извлечение из успехов и ошибок: фреймворк превращает успешные прогоны в повторно используемые тактики, а неудачные — в предостерегающие уроки и контрфактические сигналы.
- Замкнутый цикл извлечения, отбора и консолидации: ReasoningBank построен как непрерывный процесс памяти, который обновляется после каждого взаимодействия.
- Самооценка с помощью LLM-as-a-judge: система может оценивать траектории и извлекать выводы, даже если оценка не идеально точна.
- Учет памяти при масштабировании на этапе тестирования: ReasoningBank может использовать несколько траекторий исследования, чтобы извлекать более сильные воспоминания из поиска на этапе инференса и self-contrast.
Как использовать ReasoningBank
Типичный рабочий процесс начинается с подключения ReasoningBank к агенту, который выполняет задачи вроде web browsing или software engineering. Перед каждым действием агент извлекает из банка релевантные воспоминания и использует их как контекст.
После выполнения задачи агент оценивает траекторию, извлекает полезные стратегии или выводы из ошибок и добавляет их как новые структурированные воспоминания. Со временем это формирует хранилище общих уроков, которые агент может повторно использовать в более поздних задачах.
Сценарии использования
- Агенты для web browsing: используют прошлый опыт просмотра веба, чтобы избегать повторяющихся ошибок навигации и повторно применять эффективные стратегии поиска или взаимодействия со страницами.
- Агенты для software engineering: фиксируют уроки из изучения кодовой базы, отладки и выполнения задач, чтобы агент мог работать эффективнее при повторяющихся заданиях.
- Непрерывная автоматизация задач: поддерживают агентов, которые работают постоянно и должны улучшаться по мере столкновения с новыми рабочими процессами и крайними случаями.
- Исследование на этапе инференса: сжимают несколько кандидатных траекторий в воспоминания при использовании методов масштабирования на этапе тестирования.
- Анализ ошибок для агентов: превращают неудачные попытки в защитные ограничения, например избегая ловушек, которые приводили к циклам или пропущенным шагам.
FAQ
Какой тип памяти хранит ReasoningBank?
Он хранит структурированные воспоминания, которые суммируют стратегии рассуждения, рациональные основания решений и операционные выводы, а не только полные логи действий.
Он учится только на успешных прогонах?
Нет. Ключевая часть ReasoningBank в том, что он также анализирует неудачный опыт и превращает его в профилактические уроки.
Требует ли система идеальной самооценки?
Нет. В источнике отмечается, что фреймворк устойчив даже тогда, когда LLM-based judgment не идеально точен.
На каких задачах он оценивался?
Источник указывает, что он оценивался на бенчмарках web browsing и software engineering.
Является ли ReasoningBank самостоятельной моделью?
Нет. Он описывается как фреймворк памяти агентов, который работает вместе с агентом во время тестирования.
Альтернативы
- Системы памяти траекторий: хранят подробную историю действий, что может сохранять больше сырого контекста, но не всегда так же прямо выделяет стратегии более высокого уровня.
- Системы памяти рабочих процессов, ориентированные на успешные прогоны: суммируют только успешные workflow, что может быть проще, но может упускать сигналы обучения из ошибок.
- Общие слои памяти для агентов: более широкие системы памяти для агентов могут делать акцент на извлечении прошлых взаимодействий, но не обязательно на структурированном извлечении рассуждений как из успехов, так и из ошибок.
- Настройки агентов без памяти: агенты без постоянной памяти проще в реализации, но не накапливают повторно используемые уроки между задачами.
Альтернативы
AakarDev AI
AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.
Arduino VENTUNO Q
Arduino VENTUNO Q — edge AI компьютер для робототехники: ускоренный вывод нейросетей и микроконтроллер для детерминированного управления. Через Arduino App Lab.
Devin
Devin — AI coding-агент для команд: помогает завершать миграции и крупные рефакторинги, выполняя подзадачи параллельно под контролем инженеров.
Lasso
Lasso — AI-first PIM для команд e-commerce: обогащает атрибуты и описания, обрабатывает данные поставщиков и мониторит конкурентов через приложение или API.
Codex Plugins
Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.
Struere
Struere — AI-native операционная система вместо таблиц: структурированные приложения с дашбордами, алертами и автоматизациями для задач и процессов.