UStackUStack
Raindrop icon

Raindrop

Workshop von Raindrop ist ein lokaler Debugger für KI-Agents: Live-Execution-Traces streamen, Integration mit Claude Code für Agent-Evals & Tests.

Raindrop

Was ist Raindrop?

Workshop von Raindrop ist ein lokaler Debugger für KI-Agents, der Ihnen hilft, das Verhalten von Agents zu beobachten und mit Agent-Evals zu validieren. Es streamt in Echtzeit, was Ihr Agent tut, einschließlich Tokens und Tool-Calls, sodass Sie Entscheidungen live sehen können, während Ihr Agent auf localhost läuft.

Der Workflow dreht sich um Claude Code: Workshop protokolliert Traces aus der Agent-Ausführung, dann kann Claude Code Evaluations-Tests schreiben und ausführen – optional in einer selbstheilenden Schleife, in der Fehler zu Code-Änderungen und Neustarts führen, bis Assertions bestehen.

Wichtige Funktionen

  • Live gestreamte Agent-Traces auf localhost: Sehen Sie jeden Token, Tool-Call und jede Entscheidung, während der Agent läuft, gestreamt in Workshop ohne Polling oder Seitenaktualisierungen.
  • Trajectory- und Trace-Ansichten zum Debuggen: Die Oberfläche zeigt Traces wie „Overview“, „Span Tree“ und „Comms“, um zu prüfen, wie der Agent argumentiert hat und welche Tools er aufgerufen hat.
  • Integration mit Claude Code: Claude Code liest Workshop-Traces, um Agent-Evals zu generieren und Code basierend auf Evaluations-Ergebnissen zu aktualisieren.
  • Wiederholbare und iterierbare Evals: Workshop unterstützt einen Eval-Workflow, in dem Tests geschrieben, ausgeführt und verifiziert werden (z. B. Assertions zu Folgefragen oder Verhalten), mit Neuausführung nach Fixes.
  • Funktioniert mit gängigen Agent-/Coding-Ökosystemen: Die Seite listet Kompatibilität mit Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI, Mastra und verwandten Tools wie Claude Code CLI sowie Editoren/Agents wie Cursor und OpenCode auf.

Raindrop nutzen

  1. Workshop installieren mit dem bereitgestellten Skript:
    curl -fsSL https://raindrop.sh/install | bash
    
  2. Workshop lokal starten und Ihren Agent laufen lassen, damit er sich mit dem lokalen Server verbindet (die Seite zeigt den Endpoint localhost:5899).
  3. Workshop öffnen, um Traces live zu beobachten, während Ihr Agent läuft.
  4. Claude Code nutzen, um Evals basierend auf den Trace-Daten zu schreiben und auszuführen. Bei Fehlern kann Claude Code Änderungen vornehmen und den Agent neu starten, bis Assertions bestehen (wie im gestreamten Beispiel gezeigt).

Anwendungsfälle

  • Agent debuggen, der erforderliche Folgefragen überspringt: Einen Trace protokollieren, einen Eval ausführen, der Assertions für Folgefragen prüft, dann Claude Code nutzen, um Prompts oder Logik zu aktualisieren, damit der Eval besteht.
  • Tool-Calling-Verhalten über mehrere Sessions validieren: Vergleichen, wie ein Agent in verschiedenen Läufen verhält (z. B. mehrere „Agent-Sessions“ in der Trace-Liste), um Konsistenz zu bestätigen.
  • Zielgerichtete Regression-Checks für Agent-Prompts erstellen: Eval-Tests nutzen (z. B. Prüfungen auf „springt nicht zur Diagnose“), um sicherzustellen, dass Prompt-Änderungen keine zuvor behobenen Probleme reintroduzieren.
  • Execution-Comms und Span-Struktur prüfen: „Comms“- und „Span Tree“-Ansichten überprüfen, um zu verstehen, was der Agent vor einem Fehler tat und welche Tool-Calls stattfanden.
  • Multi-Framework-Agent-Entwicklung unterstützen: Workshop bei der Agent-Entwicklung mit aufgelisteten SDKs und Frameworks nutzen (z. B. LangChain/LlamaIndex/CrewAI), Debugging lokal halten und den gewohnten Agent-Stack weiterlaufen lassen.

FAQ

  • Ist Workshop nur für Claude Code? Die Seite betont die Claude-Code-Integration: Claude Code liest Traces und schreibt/führt Evals aus. Workshop selbst ist als lokaler Debugger positioniert; die Eval-Schreib-Schleife wird speziell mit Claude Code beschrieben.

  • Was bedeutet „live gestreamte Traces“? Die Seite beschreibt das Streamen von „jedem Token, jedem Tool-Call, jeder Entscheidung“ in Workshop ohne Polling oder Refresh über eine lokale localhost:5899-Verbindung.

  • Welche Programmiersprachen oder Frameworks werden unterstützt? Die Seite listet Kompatibilität mit TypeScript und Python auf, sowie Referenzen zu Rust und Go, zusammen mit Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI und Mastra.

  • Wie funktionieren Agent-Evals in Workshop? Im gezeigten Beispiel werden Traces genutzt, um Eval-Tests (Assertions) zu generieren, die Tests ausgeführt und Fehler lösen Code-Fixes aus, gefolgt von Neustarts des Agents, bis Assertions bestehen.

Alternativen

  • Lokales Logging + Test-Harness für Agent-Läufe: Statt Trace-Viewer und integrierter Eval-Schleife eigene Instrumentierung für Tool-Calls/Tokens loggen und Unit-/Integrationstests um Agent-Outputs ausführen.
  • Andere AI-Agent-Observability-Tools: Kategorien-Alternativen umfassen Tools zum Monitoring von Agent-Läufen und Visualisieren von Traces; sie unterscheiden sich darin, ob sie eine integrierte Eval-Schreib- und Iterations-Schleife unterstützen.
  • Framework-natives Debugging: Bei spezifischem Stack (z. B. LangChain/LlamaIndex) auf deren integriertes Tracing/Logging setzen und Eval-Skripte separat erstellen, statt Workshop als dedizierten lokalen Debugger zu nutzen.