UStackUStack
ReasoningBank icon

ReasoningBank

ReasoningBank ist ein Agenten-Gedächtnis-Framework, das wiederverwendbare Denkstrategien aus Erfolgen und Fehlern ableitet. Für Web und Software Engineering.

ReasoningBank

Was ist ReasoningBank?

ReasoningBank ist ein neuartiges Agenten-Gedächtnis-Framework, das eingesetzten Agenten hilft, aus erfolgreichen wie auch aus fehlgeschlagenen Erfahrungen zu lernen. Es ist für langlebige Agenten konzipiert, die sich im Laufe der Zeit verbessern sollen, statt jede Aufgabe als isolierten Versuch zu behandeln.

Das Framework speichert strukturierte Erinnerungen, die verallgemeinerbare Denkstrategien erfassen, statt nur vollständige Aktionsspuren zu protokollieren. Diese Erinnerungen werden vor einer Aktion abgerufen, nach Abschluss einer Aufgabe aktualisiert und unterstützen die Selbstentwicklung zur Testzeit in agentischen Workflows.

Zentrale Funktionen

  • Strukturierte Memory-Einträge: Jede Erinnerung enthält einen Titel, eine kurze Beschreibung und verdichteten Inhalt, wodurch die gespeicherte Erfahrung leichter wiederverwendbar ist als eine rohe Trajektorie.
  • Abruf vor der Aktion: Der Agent fragt ReasoningBank vor dem Handeln ab, damit relevante frühere Strategien den nächsten Versuch prägen können.
  • Extraktion aus Erfolg und Misserfolg: Das Framework macht aus erfolgreichen Läufen wiederverwendbare Taktiken und aus fehlgeschlagenen Läufen Warnhinweise und kontrafaktische Signale.
  • Geschlossener Kreislauf aus Abruf, Extraktion und Konsolidierung: ReasoningBank ist als kontinuierlicher Memory-Workflow aufgebaut, der nach jeder Interaktion aktualisiert wird.
  • Selbstbewertung mit einem LLM-as-a-judge: Das System kann Trajektorien bewerten und Erkenntnisse extrahieren, selbst wenn die Bewertung nicht perfekt genau ist.
  • Memory-aware Testzeit-Scaling: ReasoningBank kann mehrere Explorations-Trajektorien nutzen, um aus Inferenzzeit-Suche und Selbstkontrast stärkere Erinnerungen zu destillieren.

So verwenden Sie ReasoningBank

Ein typischer Workflow beginnt damit, ReasoningBank an einen Agenten anzubinden, der Aufgaben wie Web-Browsing oder Software Engineering ausführt. Vor jeder Aktion ruft der Agent relevante Erinnerungen aus der Bank ab und nutzt sie als Kontext.

Nach der Aufgabe bewertet der Agent die Trajektorie, extrahiert nützliche Strategien oder Reflexionen zu Fehlern und ergänzt sie als neue strukturierte Erinnerungen. Mit der Zeit entsteht so ein Repository allgemeiner Lektionen, das der Agent bei späteren Aufgaben erneut nutzen kann.

Anwendungsfälle

  • Web-Browsing-Agenten: Nutzen frühere Browsing-Erfahrungen, um wiederholte Navigationsfehler zu vermeiden und wirksame Such- oder Seiteninteraktionsstrategien wiederzuverwenden.
  • Software-Engineering-Agenten: Erfassen Lehren aus Codebase-Erkundung, Debugging und Aufgabenerledigung, damit der Agent bei wiederholten Aufgaben effektiver arbeiten kann.
  • Persistente Aufgabenautomatisierung: Unterstützt Agenten, die kontinuierlich laufen und sich bei neuen Workflows und Edge Cases verbessern müssen.
  • Exploration zur Inferenzzeit: Destilliert mehrere Kandidaten-Trajektorien in Erinnerungen, wenn Testzeit-Scaling-Methoden eingesetzt werden.
  • Fehleranalyse für Agenten: Verwandelt erfolglose Versuche in Leitplanken, etwa indem Fallen vermieden werden, die Schleifen oder verpasste Schritte verursacht haben.

FAQ

Welche Art von Memory speichert ReasoningBank?
Es speichert strukturierte Erinnerungen, die Denkstrategien, Entscheidungsbegründungen und operative Erkenntnisse zusammenfassen, statt nur vollständige Aktionslogs zu behalten.

Lernt es nur aus erfolgreichen Läufen?
Nein. Ein zentraler Bestandteil von ReasoningBank ist, dass auch fehlgeschlagene Erfahrungen analysiert und in vorbeugende Lehren umgewandelt werden.

Erfordert das System eine perfekte Selbstbewertung?
Nein. Die Quelle merkt an, dass das Framework auch dann robust ist, wenn die LLM-basierte Bewertung nicht perfekt genau ist.

Für welche Aufgaben wurde es evaluiert?
Die Quelle sagt, dass es auf Web-Browsing- und Software-Engineering-Benchmarks evaluiert wurde.

Ist ReasoningBank ein eigenständiges Modell?
Nein. Es wird als Agenten-Gedächtnis-Framework beschrieben, das zur Testzeit mit einem Agenten zusammenarbeitet.

Alternativen

  • Trajectory-Memory-Systeme: Diese speichern detaillierte Aktionshistorien, was mehr rohen Kontext bewahren kann, aber höhere Strategien möglicherweise nicht so direkt destilliert.
  • Workflow-Memory-Systeme mit Fokus auf erfolgreiche Läufe: Diese fassen nur erfolgreiche Workflows zusammen, was einfacher sein kann, aber Lernsignale aus Fehlern verpassen kann.
  • Allgemeine Agenten-Gedächtnisschichten: Breitere Memory-Systeme für Agenten können die Abrufung früherer Interaktionen betonen, aber nicht zwangsläufig die strukturierte Extraktion von Denkstrategien aus Erfolg und Misserfolg.
  • Agenten-Setups ohne Memory: Agenten ohne persistentes Gedächtnis sind einfacher zu implementieren, sammeln aber keine wiederverwendbaren Lehren über Aufgaben hinweg.
ReasoningBank | UStack