Raindrop
Workshop by Raindrop é um depurador local para agentes de IA, com streaming de traces em tempo real. Integra com Claude Code para agent evals.
O que é Raindrop?
Workshop by Raindrop é um depurador local para agentes de IA, projetado para ajudar você a observar o comportamento do agente e validá-lo com agent evals. Ele faz streaming do que seu agente está fazendo em tempo real, incluindo tokens e chamadas de ferramentas, para que você veja as decisões enquanto o agente executa em localhost.
O fluxo de trabalho centra-se no Claude Code: Workshop registra traces da execução do agente, então Claude Code pode escrever e executar testes de avaliação contra esses comportamentos — opcionalmente em um loop de auto-correção onde falhas levam a mudanças no código e reexecuções até que as asserções passem.
Principais Recursos
- Traces de agente em streaming ao vivo no localhost: Veja cada token, chamada de ferramenta e decisão enquanto o agente executa, transmitidos para o Workshop sem polling ou atualizações de página.
- Visualização de trajetória + trace para depuração: A interface mostra traces como “Overview”, “Span Tree” e “Comms”, ajudando você a inspecionar como o agente raciocinou e quais ferramentas invocou.
- Integra com Claude Code: Claude Code lê traces do Workshop para gerar agent evals e atualizar código com base nos resultados de avaliação.
- Evals que podem ser reexecutados e iterados: Workshop suporta um fluxo de eval onde testes são escritos, executados e verificados (ex.: asserções sobre perguntas de follow-up ou comportamento), com reexecução após correções.
- Funciona junto a ecossistemas comuns de agente/coding: A página lista compatibilidade com Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI, Mastra, e ferramentas relacionadas como Claude Code CLI e editores/agentes como Cursor e OpenCode.
Como Usar Raindrop
- Instale o Workshop usando o script fornecido:
curl -fsSL https://raindrop.sh/install | bash - Inicie o Workshop localmente e execute seu agente para que ele se conecte ao servidor local (a página mostra o endpoint
localhost:5899). - Abra o Workshop para assistir aos traces em streaming enquanto seu agente executa.
- Use Claude Code para escrever e executar evals com base nos dados de trace. Quando um eval falha, Claude Code pode fazer mudanças e reexecutar o agente até que as asserções passem (como demonstrado no exemplo em streaming).
Casos de Uso
- Depure um agente que pula follow-ups obrigatórios: Registre um trace, execute um eval que afirma que perguntas de follow-up são feitas, então use Claude Code para atualizar prompts ou lógica até o eval passar.
- Valide comportamento de tool-calling em múltiplas sessões: Compare como um agente se comporta em execuções diferentes (ex.: múltiplas “sessões de agente” mostradas na lista de traces) para confirmar consistência.
- Crie checks de regressão direcionados para prompts de agente: Use testes de eval (ex.: checks para “não pular para diagnóstico”) para garantir que mudanças no prompt não reintroduzam problemas corrigidos.
- Inspecione comunicações de execução e estrutura de spans: Revise visualizações “Comms” e “Span Tree” para entender o que o agente fez antes de uma falha e quais chamadas de ferramentas ocorreram.
- Suporte desenvolvimento de agentes multi-framework: Use Workshop ao construir agentes com SDKs e frameworks listados na página (ex.: LangChain/LlamaIndex/CrewAI), mantendo a depuração local enquanto usa sua stack de agente existente.
FAQ
-
Workshop é só para Claude Code? A página enfatiza a integração com Claude Code: Claude Code lê traces e escreve/executa evals. O Workshop em si é posicionado como depurador local; o loop de escrita de eval é descrito especificamente com Claude Code.
-
O que significa “traces em streaming ao vivo”? A página descreve streaming de “cada token, cada chamada de ferramenta, cada decisão” para o Workshop sem polling ou refresh, usando conexão local
localhost:5899. -
Quais linguagens de programação ou frameworks são suportados? A página lista compatibilidade com TypeScript e Python, e também menciona Rust e Go, junto com Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI e Mastra.
-
Como funcionam os agent evals no Workshop? No exemplo mostrado, traces são usados para gerar testes de eval (asserções), os testes são executados, e falhas disparam correções no código seguidas de reexecução do agente até as asserções passarem.
Alternativas
- Logging local + harness de testes para execuções de agente: Em vez de visualizador de trace e loop de eval integrado, você pode criar sua própria instrumentação para logar chamadas de ferramentas/tokens e executar testes unitários/integração em saídas de agente.
- Outras ferramentas de observabilidade para agentes de IA: Alternativas da categoria incluem ferramentas focadas em monitorar execuções de agente e visualizar traces; elas podem diferir por suportar ou não um loop integrado de escrita e iteração de eval.
- Depuração nativa de framework: Se você usa uma stack específica (ex.: LangChain/LlamaIndex), pode depender do tracing/logging embutido e criar scripts de eval separadamente, em vez de usar Workshop como depurador local dedicado.
Alternativas
Codex Plugins
Use Codex Plugins para combinar skills, integrações de apps e servidores MCP em fluxos reutilizáveis, ampliando o acesso do Codex a Gmail, Drive e Slack.
ClawTick
ClawTick é uma plataforma de automação de agentes com IA e CLI para agendar tarefas via webhooks em cron, com monitoramento, alertas e logs.
Falconer
Falconer é uma plataforma de conhecimento que se atualiza sozinha, reunindo documentação interna e contexto de código para equipes rápidas encontrarem e compartilharem.
OpenFlags
OpenFlags é um sistema de feature flags open source e self-hosted para progressive delivery, com avaliação local via SDKs e control plane.
AakarDev AI
AakarDev AI é uma plataforma poderosa que simplifica o desenvolvimento de aplicações de IA com integração perfeita de banco de dados vetorial, permitindo implantação rápida e escalabilidade.
Whirr
Whirr é um app silencioso da barra de menus do macOS que espelha a atividade do agente do Claude Code na sua notch.