UStackUStack
Raindrop icon

Raindrop

Workshop by Raindrop è un debugger locale per agenti AI: trasmette in tempo reale tracce di esecuzione e integra Claude Code per eval.

Raindrop

Cos'è Raindrop?

Workshop di Raindrop è un debugger locale per agenti AI, progettato per aiutarti a osservare il comportamento dell'agente e validarlo con eval degli agenti. Trasmette in tempo reale ciò che fa il tuo agente, inclusi token e chiamate a tool, così puoi vedere le decisioni mentre l'agente gira su localhost.

Il workflow ruota intorno a Claude Code: Workshop registra le tracce dall'esecuzione dell'agente, poi Claude Code può scrivere e eseguire test di valutazione su quei comportamenti—opzionalmente in un loop auto-correttivo dove i fallimenti portano a cambiamenti nel codice e re-esecuzioni finché le asserzioni non passano.

Caratteristiche Principali

  • Tracce agente in streaming live su localhost: Vedi ogni token, chiamata a tool e decisione mentre l'agente gira, trasmesse in Workshop senza polling o refresh della pagina.
  • Visualizzazione traiettoria + tracce per debug: L'interfaccia mostra tracce come “Overview,” “Span Tree,” e “Comms,” per ispezionare come l'agente ha ragionato e quali tool ha invocato.
  • Integra con Claude Code: Claude Code legge le tracce di Workshop per generare eval degli agenti e aggiornare il codice in base ai risultati delle valutazioni.
  • Eval che si possono re-eseguire e iterare: Workshop supporta un workflow eval dove i test vengono scritti, eseguiti e verificati (es. asserzioni su domande follow-up o comportamenti), con re-esecuzione dopo le correzioni.
  • Funziona con ecosistemi agente/coding comuni: La pagina elenca compatibilità con Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI, Mastra, e tool correlati come Claude Code CLI e editor/agenti come Cursor e OpenCode.

Come Usare Raindrop

  1. Installa Workshop usando lo script fornito:
    curl -fsSL https://raindrop.sh/install | bash
    
  2. Avvia Workshop localmente ed esegui il tuo agente così si connette al server locale (la pagina mostra l'endpoint localhost:5899).
  3. Apri Workshop per guardare le tracce in streaming mentre l'agente gira.
  4. Usa Claude Code per scrivere ed eseguire eval basati sui dati delle tracce. Quando un eval fallisce, Claude Code può fare cambiamenti e re-eseguire l'agente finché le asserzioni non passano (come dimostrato nell'esempio in streaming).

Casi d'Uso

  • Debug di un agente che salta follow-up obbligatori: Registra una traccia, esegui un eval che asserisce che le domande follow-up vengono poste, poi usa Claude Code per aggiornare prompt o logica così l'eval passi.
  • Valida comportamento tool-calling su più sessioni: Confronta come si comporta un agente su run diverse (es. più “sessioni agente” mostrate nella lista tracce) per confermare consistenza.
  • Crea check di regressione mirati per prompt agente: Usa test eval (es. check “non salta alla diagnosi”) per assicurare che cambiamenti ai prompt non reintroducano issues già fixate.
  • Ispeziona comms di esecuzione e struttura span: Rivedi viste “Comms” e “Span Tree” per capire cosa ha fatto l'agente prima di un fallimento e quali chiamate a tool sono avvenute.
  • Supporta sviluppo agente multi-framework: Usa Workshop mentre costruisci agenti con SDK e framework elencati sulla pagina (es. LangChain/LlamaIndex/CrewAI), mantenendo il debug locale mentre usi lo stack agente già in uso.

FAQ

  • Workshop è solo per Claude Code? La pagina enfatizza l'integrazione con Claude Code: Claude Code legge tracce e scrive/esegue eval. Workshop in sé è posizionato come debugger locale; il loop di scrittura eval è descritto specificamente con Claude Code.

  • Cosa significa “tracce in streaming live”? La pagina descrive lo streaming di “ogni token, ogni chiamata a tool, ogni decisione” in Workshop senza polling o refresh, usando una connessione locale localhost:5899.

  • Quali linguaggi di programmazione o framework sono supportati? La pagina elenca compatibilità con TypeScript e Python, e menziona anche Rust e Go, insieme a Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI e Mastra.

  • Come funzionano le eval degli agenti in Workshop? Nell'esempio mostrato, le tracce vengono usate per generare test eval (asserzioni), i test vengono eseguiti e i fallimenti triggerano fix al codice seguiti da re-esecuzione dell'agente finché le asserzioni non passano.

Alternative

  • Logging locale + harness di test per run agente: Invece di un visualizzatore tracce e loop eval integrato, puoi buildare la tua strumentazione per loggare chiamate a tool/token e eseguire unit/integration test intorno agli output agente.
  • Altri tool di osservabilità per agenti AI: Alternative di categoria includono tool focalizzati su monitoraggio run agente e visualizzazione tracce; possono differire per supporto a loop integrato di scrittura eval e iterazione.
  • Debug nativo del framework: Se usi uno stack specifico (es. LangChain/LlamaIndex), puoi affidarti al loro tracing/logging integrato e creare script eval separati, invece di usare Workshop come debugger locale dedicato.