UStackUStack
ReasoningBank icon

ReasoningBank

ReasoningBank è un framework di memoria per agenti che distilla strategie di ragionamento riutilizzabili da successi e fallimenti, per web browsing e software engineering.

ReasoningBank

Cos’è ReasoningBank?

ReasoningBank è un innovativo framework di memoria per agenti che aiuta gli agenti già distribuiti a imparare sia dalle esperienze positive sia da quelle negative. È progettato per agenti di lunga durata che devono migliorare nel tempo invece di trattare ogni attività come un tentativo isolato.

Il framework memorizza ricordi strutturati che catturano strategie di ragionamento generalizzabili invece di registrare solo tracce complete delle azioni. Questi ricordi vengono recuperati prima dell’azione, aggiornati dopo che l’agente completa un’attività e usati per supportare l’autoevoluzione al test-time nei workflow agentici.

Caratteristiche principali

  • Elementi di memoria strutturati: Ogni memoria include un titolo, una breve descrizione e contenuti distillati, il che rende l’esperienza memorizzata più facile da riutilizzare rispetto a una traiettoria grezza.
  • Recupero prima dell’azione: L’agente interroga ReasoningBank prima di agire, così le strategie passate pertinenti possono orientare il tentativo successivo.
  • Estrazione sia dai successi sia dai fallimenti: Il framework trasforma le esecuzioni riuscite in tattiche riutilizzabili e quelle fallite in lezioni di cautela e segnali controfattuali.
  • Recupero, estrazione e consolidamento in ciclo chiuso: ReasoningBank è costruito come un flusso di lavoro di memoria continuo che si aggiorna dopo ogni interazione.
  • Autovalutazione con un LLM-as-a-judge: Il sistema può valutare le traiettorie ed estrarre insight anche quando il giudizio non è perfettamente accurato.
  • Scaling al test-time consapevole della memoria: ReasoningBank può usare più traiettorie di esplorazione per distillare memorie più forti dalla ricerca in fase di inferenza e dal self-contrast.

Come usare ReasoningBank

Un workflow tipico inizia collegando ReasoningBank a un agente che svolge attività come web browsing o software engineering. Prima di ogni azione, l’agente recupera dal banco le memorie pertinenti e le usa come contesto.

Dopo l’attività, l’agente valuta la traiettoria, estrae strategie utili o riflessioni sui fallimenti e le aggiunge come nuove memorie strutturate. Con il tempo, questo crea un archivio di lezioni generali che l’agente può riutilizzare nei compiti successivi.

Casi d’uso

  • Agenti di web browsing: Usano esperienze di navigazione passate per evitare errori di navigazione ripetuti e per riutilizzare efficaci strategie di ricerca o di interazione con le pagine.
  • Agenti di software engineering: Catturano lezioni dall’esplorazione del codebase, dal debugging e dal completamento delle attività, così l’agente può lavorare in modo più efficace su assegnazioni ripetute.
  • Automazione persistente di attività: Supportano agenti che girano continuamente e devono migliorare mentre incontrano nuovi workflow ed edge case.
  • Esplorazione al tempo di inferenza: Distillano più traiettorie candidate in memorie quando si usano metodi di scaling al test-time.
  • Analisi dei fallimenti per agenti: Trasformano i tentativi non riusciti in guardrail, come evitare trappole che hanno causato loop o passaggi mancati.

FAQ

Che tipo di memoria memorizza ReasoningBank? Memorizza memorie strutturate che riassumono strategie di ragionamento, razionali decisionali e insight operativi, invece di conservare solo log completi delle azioni.

Impara solo dalle esecuzioni riuscite? No. Una parte centrale di ReasoningBank è che analizza anche le esperienze fallite e le trasforma in lezioni preventive.

Il sistema richiede una self-evaluation perfetta? No. La fonte indica che il framework è robusto anche quando il giudizio basato su LLM non è perfettamente accurato.

Su quali task è stato valutato? La fonte dice che è stato valutato su benchmark di web browsing e software engineering.

ReasoningBank è un modello autonomo? No. È descritto come un framework di memoria per agenti che funziona con un agente durante il test time.

Alternative

  • Sistemi di memoria basati su traiettorie: Memorizzano storici dettagliati delle azioni, che possono preservare più contesto grezzo ma potrebbero non distillare altrettanto direttamente strategie di livello superiore.
  • Sistemi di memoria del workflow focalizzati sui successi: Riassumono solo i workflow riusciti, quindi possono essere più semplici ma rischiano di perdere segnali di apprendimento dai fallimenti.
  • Livelli di memoria generici per agenti: Sistemi di memoria più ampi per agenti possono enfatizzare il recupero delle interazioni passate, ma non necessariamente l’estrazione strutturata del ragionamento da successi e fallimenti.
  • Setup di agenti senza memoria: Gli agenti senza memoria persistente sono più semplici da implementare ma non accumulano lezioni riutilizzabili tra attività.
ReasoningBank | UStack