UStackUStack
ReasoningBank icon

ReasoningBank

ReasoningBank é um framework de memória para agentes que extrai estratégias de raciocínio reutilizáveis de sucessos e falhas, apoiando aprendizagem em web browsing e software engineering.

ReasoningBank

O que é ReasoningBank?

ReasoningBank é um novo framework de memória para agentes que ajuda agentes já em produção a aprender com experiências bem-sucedidas e malsucedidas. Foi concebido para agentes de longa duração que precisam de melhorar ao longo do tempo, em vez de tratar cada tarefa como uma tentativa isolada.

O framework armazena memórias estruturadas que capturam estratégias de raciocínio generalizáveis, em vez de registar apenas traços completos de ações. Essas memórias são recuperadas antes da ação, atualizadas depois de o agente concluir uma tarefa e usadas para apoiar a autoevolução em tempo de teste em fluxos de trabalho agentic.

Principais Funcionalidades

  • Itens de memória estruturados: Cada memória inclui um título, uma breve descrição e conteúdo destilado, o que torna a experiência armazenada mais fácil de reutilizar do que uma trajetória bruta.
  • Recuperação antes da ação: O agente consulta o ReasoningBank antes de agir para que estratégias passadas relevantes possam influenciar a próxima tentativa.
  • Extração de sucesso e fracasso: O framework transforma execuções bem-sucedidas em táticas reutilizáveis e execuções falhadas em lições de precaução e sinais contrafactuais.
  • Recuperação, extração e consolidação em ciclo fechado: ReasoningBank foi construído como um fluxo contínuo de memória que é atualizado após cada interação.
  • Autojulgamento com um LLM-as-a-judge: O sistema pode avaliar trajetórias e extrair insights mesmo quando o julgamento não é perfeitamente preciso.
  • Escalonamento em tempo de teste com consciência da memória: ReasoningBank pode usar várias trajetórias de exploração para destilar memórias mais fortes a partir da pesquisa em tempo de inferência e da autocontrastação.

Como Usar o ReasoningBank

Um fluxo de trabalho típico começa por ligar o ReasoningBank a um agente que executa tarefas como web browsing ou software engineering. Antes de cada ação, o agente recupera memórias relevantes do banco e usa-as como contexto.

Após a tarefa, o agente avalia a trajetória, extrai estratégias úteis ou reflexões sobre falhas e acrescenta-as como novas memórias estruturadas. Com o tempo, isto cria um repositório de lições gerais que o agente pode reutilizar em tarefas futuras.

Casos de Uso

  • Agentes de web browsing: Use experiências anteriores de navegação para evitar erros repetidos de navegação e reutilizar estratégias eficazes de pesquisa ou interação com páginas.
  • Agentes de software engineering: Registe lições da exploração da base de código, depuração e conclusão de tarefas para que o agente possa მუშაობar de forma mais eficaz em atribuições repetidas.
  • Automação persistente de tarefas: Apoie agentes que executam continuamente e precisam de melhorar à medida que encontram novos fluxos de trabalho e casos extremos.
  • Exploração em tempo de inferência: Destile várias trajetórias candidatas em memórias ao usar métodos de escalonamento em tempo de teste.
  • Análise de falhas para agentes: Transforme tentativas malsucedidas em salvaguardas, como evitar armadilhas que causaram loops ou passos omitidos.

FAQ

Que tipo de memória o ReasoningBank armazena? Armazena memórias estruturadas que resumem estratégias de raciocínio, racionales de decisão e insights operacionais, em vez de guardar apenas registos completos de ações.

Aprende apenas com execuções bem-sucedidas? Não. Uma parte central do ReasoningBank é também analisar experiências falhadas e transformá-las em lições preventivas.

O sistema requer autoavaliação perfeita? Não. A fonte observa que o framework é robusto mesmo quando o julgamento baseado em LLM não é perfeitamente preciso.

Em que tarefas foi avaliado? A fonte diz que foi avaliado em benchmarks de web browsing e software engineering.

O ReasoningBank é um modelo autónomo? Não. É descrito como um framework de memória para agentes que funciona com um agente em tempo de teste.

Alternativas

  • Sistemas de memória de trajetória: Armazenam históricos detalhados de ações, o que pode preservar mais contexto bruto, mas pode não destilar estratégias de nível superior de forma tão direta.
  • Sistemas de memória de fluxo de trabalho focados em execuções bem-sucedidas: Resumem apenas fluxos de trabalho bem-sucedidos, o que pode ser mais simples, mas pode perder sinais de aprendizagem provenientes de falhas.
  • Camadas gerais de memória para agentes: Sistemas de memória mais abrangentes para agentes podem enfatizar a recuperação de interações passadas, mas não necessariamente a extração estruturada de raciocínio a partir de sucesso e falha.
  • Configurações de agentes sem memória: Agentes sem memória persistente são mais simples de implementar, mas não acumulam lições reutilizáveis entre tarefas.
ReasoningBank | UStack