Raindrop
Workshop by Raindrop è un debugger locale per agenti AI: trasmette in tempo reale tracce di esecuzione e integra Claude Code per eval.
Cos'è Raindrop?
Workshop di Raindrop è un debugger locale per agenti AI, progettato per aiutarti a osservare il comportamento dell'agente e validarlo con eval degli agenti. Trasmette in tempo reale ciò che fa il tuo agente, inclusi token e chiamate a tool, così puoi vedere le decisioni mentre l'agente gira su localhost.
Il workflow ruota intorno a Claude Code: Workshop registra le tracce dall'esecuzione dell'agente, poi Claude Code può scrivere e eseguire test di valutazione su quei comportamenti—opzionalmente in un loop auto-correttivo dove i fallimenti portano a cambiamenti nel codice e re-esecuzioni finché le asserzioni non passano.
Caratteristiche Principali
- Tracce agente in streaming live su localhost: Vedi ogni token, chiamata a tool e decisione mentre l'agente gira, trasmesse in Workshop senza polling o refresh della pagina.
- Visualizzazione traiettoria + tracce per debug: L'interfaccia mostra tracce come “Overview,” “Span Tree,” e “Comms,” per ispezionare come l'agente ha ragionato e quali tool ha invocato.
- Integra con Claude Code: Claude Code legge le tracce di Workshop per generare eval degli agenti e aggiornare il codice in base ai risultati delle valutazioni.
- Eval che si possono re-eseguire e iterare: Workshop supporta un workflow eval dove i test vengono scritti, eseguiti e verificati (es. asserzioni su domande follow-up o comportamenti), con re-esecuzione dopo le correzioni.
- Funziona con ecosistemi agente/coding comuni: La pagina elenca compatibilità con Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI, Mastra, e tool correlati come Claude Code CLI e editor/agenti come Cursor e OpenCode.
Come Usare Raindrop
- Installa Workshop usando lo script fornito:
curl -fsSL https://raindrop.sh/install | bash - Avvia Workshop localmente ed esegui il tuo agente così si connette al server locale (la pagina mostra l'endpoint
localhost:5899). - Apri Workshop per guardare le tracce in streaming mentre l'agente gira.
- Usa Claude Code per scrivere ed eseguire eval basati sui dati delle tracce. Quando un eval fallisce, Claude Code può fare cambiamenti e re-eseguire l'agente finché le asserzioni non passano (come dimostrato nell'esempio in streaming).
Casi d'Uso
- Debug di un agente che salta follow-up obbligatori: Registra una traccia, esegui un eval che asserisce che le domande follow-up vengono poste, poi usa Claude Code per aggiornare prompt o logica così l'eval passi.
- Valida comportamento tool-calling su più sessioni: Confronta come si comporta un agente su run diverse (es. più “sessioni agente” mostrate nella lista tracce) per confermare consistenza.
- Crea check di regressione mirati per prompt agente: Usa test eval (es. check “non salta alla diagnosi”) per assicurare che cambiamenti ai prompt non reintroducano issues già fixate.
- Ispeziona comms di esecuzione e struttura span: Rivedi viste “Comms” e “Span Tree” per capire cosa ha fatto l'agente prima di un fallimento e quali chiamate a tool sono avvenute.
- Supporta sviluppo agente multi-framework: Usa Workshop mentre costruisci agenti con SDK e framework elencati sulla pagina (es. LangChain/LlamaIndex/CrewAI), mantenendo il debug locale mentre usi lo stack agente già in uso.
FAQ
-
Workshop è solo per Claude Code? La pagina enfatizza l'integrazione con Claude Code: Claude Code legge tracce e scrive/esegue eval. Workshop in sé è posizionato come debugger locale; il loop di scrittura eval è descritto specificamente con Claude Code.
-
Cosa significa “tracce in streaming live”? La pagina descrive lo streaming di “ogni token, ogni chiamata a tool, ogni decisione” in Workshop senza polling o refresh, usando una connessione locale
localhost:5899. -
Quali linguaggi di programmazione o framework sono supportati? La pagina elenca compatibilità con TypeScript e Python, e menziona anche Rust e Go, insieme a Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI e Mastra.
-
Come funzionano le eval degli agenti in Workshop? Nell'esempio mostrato, le tracce vengono usate per generare test eval (asserzioni), i test vengono eseguiti e i fallimenti triggerano fix al codice seguiti da re-esecuzione dell'agente finché le asserzioni non passano.
Alternative
- Logging locale + harness di test per run agente: Invece di un visualizzatore tracce e loop eval integrato, puoi buildare la tua strumentazione per loggare chiamate a tool/token e eseguire unit/integration test intorno agli output agente.
- Altri tool di osservabilità per agenti AI: Alternative di categoria includono tool focalizzati su monitoraggio run agente e visualizzazione tracce; possono differire per supporto a loop integrato di scrittura eval e iterazione.
- Debug nativo del framework: Se usi uno stack specifico (es. LangChain/LlamaIndex), puoi affidarti al loro tracing/logging integrato e creare script eval separati, invece di usare Workshop come debugger locale dedicato.
Alternative
Codex Plugins
Usa Codex Plugins per combinare skill, integrazioni app e server MCP in workflow riutilizzabili: estendi Codex per lavorare con Gmail, Google Drive e Slack.
ClawTick
ClawTick è una piattaforma AI per automazione via CLI: schedula task webhook su cron con monitoraggio, alert, retry e log di esecuzione.
Falconer
Falconer è una piattaforma di conoscenza che si aggiorna da sola: scrivi, condividi e trova documentazione interna e contesto del codice in un unico posto.
OpenFlags
OpenFlags è un sistema di feature flag open source self-hosted per progressive delivery: valuta localmente via SDK e gestisci i rollout con un control plane semplice.
AakarDev AI
AakarDev AI è una piattaforma potente che semplifica lo sviluppo di applicazioni AI con integrazione fluida dei database vettoriali, consentendo un rapido deployment e scalabilità.
Whirr
Whirr è un’app per la barra dei menu di macOS che rispecchia l’attività degli agent di Claude Code nel notch. Dai uno sguardo senza guardare lo schermo.