UStackUStack
Raindrop icon

Raindrop

Workshop by Raindrop : débogueur local pour agents IA, diffuse en temps réel les traces d’exécution. Intégration Claude Code pour lancer des evals.

Raindrop

Qu’est-ce que Raindrop ?

Workshop by Raindrop est un débogueur local pour agents IA, conçu pour vous aider à observer le comportement des agents et à le valider avec des evals d’agents. Il diffuse en temps réel ce que fait votre agent, y compris les tokens et les appels d’outils, pour que vous puissiez voir les décisions au fur et à mesure que l’agent s’exécute sur localhost.

Le workflow est centré sur Claude Code : Workshop enregistre les traces d’exécution de l’agent, puis Claude Code peut écrire et exécuter des tests d’évaluation contre ces comportements — optionnellement dans une boucle d’auto-correction où les échecs mènent à des changements de code et des réexécutions jusqu’à ce que les assertions passent.

Fonctionnalités principales

  • Traces d’agents diffusées en direct sur localhost : Voyez chaque token, appel d’outil et décision pendant l’exécution de l’agent, diffusés dans Workshop sans polling ni actualisation de page.
  • Visualisation de trajectoire + traces pour débogage : L’interface affiche des traces comme « Overview », « Span Tree » et « Comms », pour inspecter le raisonnement de l’agent et les outils invoqués.
  • Intégration avec Claude Code : Claude Code lit les traces de Workshop pour générer des evals d’agents et mettre à jour le code en fonction des résultats d’évaluation.
  • Evals réexécutables et itérables : Workshop prend en charge un workflow d’evals où les tests sont écrits, exécutés et vérifiés (ex. : assertions sur les questions de suivi ou le comportement), avec réexécution après corrections.
  • Compatible avec les écosystèmes d’agents/codage courants : La page liste la compatibilité avec Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI, Mastra, et outils associés comme le CLI Claude Code et les éditeurs/agents tels que Cursor et OpenCode.

Comment utiliser Raindrop

  1. Installer Workshop avec le script fourni :
    curl -fsSL https://raindrop.sh/install | bash
    
  2. Démarrer Workshop localement et exécuter votre agent pour qu’il se connecte au serveur local (la page montre un endpoint localhost:5899).
  3. Ouvrir Workshop pour regarder les traces arriver en direct pendant l’exécution de l’agent.
  4. Utiliser Claude Code pour écrire et exécuter des evals basés sur les données de traces. En cas d’échec d’un eval, Claude Code peut apporter des changements et réexécuter l’agent jusqu’à ce que les assertions passent (comme démontré dans l’exemple diffusé).

Cas d’usage

  • Déboguer un agent qui omet des suivis requis : Enregistrer une trace, exécuter un eval qui assert que des questions de suivi sont posées, puis utiliser Claude Code pour mettre à jour les prompts ou la logique afin que l’eval passe.
  • Valider le comportement d’appels d’outils sur plusieurs sessions : Comparer le comportement d’un agent sur différentes exécutions (ex. : plusieurs « sessions d’agent » listées dans les traces) pour confirmer la cohérence.
  • Créer des checks de régression ciblés pour prompts d’agents : Utiliser des tests d’eval (ex. : vérifications « ne saute pas au diagnostic ») pour s’assurer que les changements de prompts ne réintroduisent pas d’anciens problèmes corrigés.
  • Inspecter les comms d’exécution et la structure des spans : Examiner les vues « Comms » et « Span Tree » pour comprendre ce que l’agent a fait avant un échec et quels appels d’outils ont eu lieu.
  • Supporter le développement multi-framework d’agents : Utiliser Workshop lors de la construction d’agents avec les SDK et frameworks listés sur la page (ex. : LangChain/LlamaIndex/CrewAI), en gardant le débogage local tout en exécutant votre stack d’agents existant.

FAQ

  • Workshop est-il uniquement pour Claude Code ? La page met l’accent sur l’intégration Claude Code : Claude Code lit les traces et écrit/exécute des evals. Workshop lui-même est présenté comme le débogueur local ; la boucle d’écriture d’evals est décrite spécifiquement avec Claude Code.

  • Que signifie « traces diffusées en direct » ? La page décrit la diffusion de « chaque token, chaque appel d’outil, chaque décision » dans Workshop sans polling ni actualisation, via une connexion locale localhost:5899.

  • Quels langages de programmation ou frameworks sont supportés ? La page liste la compatibilité avec TypeScript et Python, et mentionne aussi Rust et Go, ainsi que Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI et Mastra.

  • Comment fonctionnent les evals d’agents dans Workshop ? Dans l’exemple montré, les traces servent à générer des tests d’eval (assertions), les tests sont exécutés, et les échecs déclenchent des corrections de code suivies d’une réexécution de l’agent jusqu’à ce que les assertions passent.

Alternatives

  • Logging local + harnais de tests pour exécutions d’agents : Au lieu d’un visualiseur de traces et d’une boucle d’eval intégrée, vous pouvez créer votre propre instrumentation pour logger les appels d’outils/tokens et exécuter des tests unitaires/intégration autour des sorties d’agents.
  • Autres outils d’observabilité pour agents IA : Alternatives de catégorie incluent des outils axés sur la surveillance des exécutions d’agents et la visualisation de traces ; ils diffèrent par le support d’une boucle intégrée d’écriture et d’itération d’evals.
  • Débogage natif aux frameworks : Si vous utilisez un stack spécifique (ex. : LangChain/LlamaIndex), vous pouvez vous appuyer sur leur traçage/logging intégré et créer des scripts d’eval séparément, plutôt que d’utiliser Workshop comme débogueur local dédié.