Raindrop

O que é Raindrop?

Workshop by Raindrop é um depurador local para agentes de IA, projetado para ajudar você a observar o comportamento do agente e validá-lo com agent evals. Ele faz streaming do que seu agente está fazendo em tempo real, incluindo tokens e chamadas de ferramentas, para que você veja as decisões enquanto o agente executa em localhost.

O fluxo de trabalho centra-se no Claude Code: Workshop registra traces da execução do agente, então Claude Code pode escrever e executar testes de avaliação contra esses comportamentos — opcionalmente em um loop de auto-correção onde falhas levam a mudanças no código e reexecuções até que as asserções passem.

Principais Recursos

Traces de agente em streaming ao vivo no localhost: Veja cada token, chamada de ferramenta e decisão enquanto o agente executa, transmitidos para o Workshop sem polling ou atualizações de página.
Visualização de trajetória + trace para depuração: A interface mostra traces como “Overview”, “Span Tree” e “Comms”, ajudando você a inspecionar como o agente raciocinou e quais ferramentas invocou.
Integra com Claude Code: Claude Code lê traces do Workshop para gerar agent evals e atualizar código com base nos resultados de avaliação.
Evals que podem ser reexecutados e iterados: Workshop suporta um fluxo de eval onde testes são escritos, executados e verificados (ex.: asserções sobre perguntas de follow-up ou comportamento), com reexecução após correções.
Funciona junto a ecossistemas comuns de agente/coding: A página lista compatibilidade com Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI, Mastra, e ferramentas relacionadas como Claude Code CLI e editores/agentes como Cursor e OpenCode.

Como Usar Raindrop

Instale o Workshop usando o script fornecido:

curl -fsSL https://raindrop.sh/install | bash

Inicie o Workshop localmente e execute seu agente para que ele se conecte ao servidor local (a página mostra o endpoint localhost:5899).
Abra o Workshop para assistir aos traces em streaming enquanto seu agente executa.
Use Claude Code para escrever e executar evals com base nos dados de trace. Quando um eval falha, Claude Code pode fazer mudanças e reexecutar o agente até que as asserções passem (como demonstrado no exemplo em streaming).

Casos de Uso

Depure um agente que pula follow-ups obrigatórios: Registre um trace, execute um eval que afirma que perguntas de follow-up são feitas, então use Claude Code para atualizar prompts ou lógica até o eval passar.
Valide comportamento de tool-calling em múltiplas sessões: Compare como um agente se comporta em execuções diferentes (ex.: múltiplas “sessões de agente” mostradas na lista de traces) para confirmar consistência.
Crie checks de regressão direcionados para prompts de agente: Use testes de eval (ex.: checks para “não pular para diagnóstico”) para garantir que mudanças no prompt não reintroduzam problemas corrigidos.
Inspecione comunicações de execução e estrutura de spans: Revise visualizações “Comms” e “Span Tree” para entender o que o agente fez antes de uma falha e quais chamadas de ferramentas ocorreram.
Suporte desenvolvimento de agentes multi-framework: Use Workshop ao construir agentes com SDKs e frameworks listados na página (ex.: LangChain/LlamaIndex/CrewAI), mantendo a depuração local enquanto usa sua stack de agente existente.

FAQ

Workshop é só para Claude Code? A página enfatiza a integração com Claude Code: Claude Code lê traces e escreve/executa evals. O Workshop em si é posicionado como depurador local; o loop de escrita de eval é descrito especificamente com Claude Code.
O que significa “traces em streaming ao vivo”? A página descreve streaming de “cada token, cada chamada de ferramenta, cada decisão” para o Workshop sem polling ou refresh, usando conexão local localhost:5899.
Quais linguagens de programação ou frameworks são suportados? A página lista compatibilidade com TypeScript e Python, e também menciona Rust e Go, junto com Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI e Mastra.
Como funcionam os agent evals no Workshop? No exemplo mostrado, traces são usados para gerar testes de eval (asserções), os testes são executados, e falhas disparam correções no código seguidas de reexecução do agente até as asserções passarem.

Alternativas

Logging local + harness de testes para execuções de agente: Em vez de visualizador de trace e loop de eval integrado, você pode criar sua própria instrumentação para logar chamadas de ferramentas/tokens e executar testes unitários/integração em saídas de agente.
Outras ferramentas de observabilidade para agentes de IA: Alternativas da categoria incluem ferramentas focadas em monitorar execuções de agente e visualizar traces; elas podem diferir por suportar ou não um loop integrado de escrita e iteração de eval.
Depuração nativa de framework: Se você usa uma stack específica (ex.: LangChain/LlamaIndex), pode depender do tracing/logging embutido e criar scripts de eval separadamente, em vez de usar Workshop como depurador local dedicado.

Raindrop

O que é Raindrop?

Principais Recursos

Como Usar Raindrop

Casos de Uso

FAQ

Alternativas

Alternativas

Codex Plugins

ClawTick

Falconer

OpenFlags

AakarDev AI

Whirr