UStackUStack
Raindrop icon

Raindrop

Workshop by Raindrop é um depurador local para agentes de IA, com streaming de traces em tempo real. Integra com Claude Code para agent evals.

Raindrop

O que é Raindrop?

Workshop by Raindrop é um depurador local para agentes de IA, projetado para ajudar você a observar o comportamento do agente e validá-lo com agent evals. Ele faz streaming do que seu agente está fazendo em tempo real, incluindo tokens e chamadas de ferramentas, para que você veja as decisões enquanto o agente executa em localhost.

O fluxo de trabalho centra-se no Claude Code: Workshop registra traces da execução do agente, então Claude Code pode escrever e executar testes de avaliação contra esses comportamentos — opcionalmente em um loop de auto-correção onde falhas levam a mudanças no código e reexecuções até que as asserções passem.

Principais Recursos

  • Traces de agente em streaming ao vivo no localhost: Veja cada token, chamada de ferramenta e decisão enquanto o agente executa, transmitidos para o Workshop sem polling ou atualizações de página.
  • Visualização de trajetória + trace para depuração: A interface mostra traces como “Overview”, “Span Tree” e “Comms”, ajudando você a inspecionar como o agente raciocinou e quais ferramentas invocou.
  • Integra com Claude Code: Claude Code lê traces do Workshop para gerar agent evals e atualizar código com base nos resultados de avaliação.
  • Evals que podem ser reexecutados e iterados: Workshop suporta um fluxo de eval onde testes são escritos, executados e verificados (ex.: asserções sobre perguntas de follow-up ou comportamento), com reexecução após correções.
  • Funciona junto a ecossistemas comuns de agente/coding: A página lista compatibilidade com Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI, Mastra, e ferramentas relacionadas como Claude Code CLI e editores/agentes como Cursor e OpenCode.

Como Usar Raindrop

  1. Instale o Workshop usando o script fornecido:
    curl -fsSL https://raindrop.sh/install | bash
    
  2. Inicie o Workshop localmente e execute seu agente para que ele se conecte ao servidor local (a página mostra o endpoint localhost:5899).
  3. Abra o Workshop para assistir aos traces em streaming enquanto seu agente executa.
  4. Use Claude Code para escrever e executar evals com base nos dados de trace. Quando um eval falha, Claude Code pode fazer mudanças e reexecutar o agente até que as asserções passem (como demonstrado no exemplo em streaming).

Casos de Uso

  • Depure um agente que pula follow-ups obrigatórios: Registre um trace, execute um eval que afirma que perguntas de follow-up são feitas, então use Claude Code para atualizar prompts ou lógica até o eval passar.
  • Valide comportamento de tool-calling em múltiplas sessões: Compare como um agente se comporta em execuções diferentes (ex.: múltiplas “sessões de agente” mostradas na lista de traces) para confirmar consistência.
  • Crie checks de regressão direcionados para prompts de agente: Use testes de eval (ex.: checks para “não pular para diagnóstico”) para garantir que mudanças no prompt não reintroduzam problemas corrigidos.
  • Inspecione comunicações de execução e estrutura de spans: Revise visualizações “Comms” e “Span Tree” para entender o que o agente fez antes de uma falha e quais chamadas de ferramentas ocorreram.
  • Suporte desenvolvimento de agentes multi-framework: Use Workshop ao construir agentes com SDKs e frameworks listados na página (ex.: LangChain/LlamaIndex/CrewAI), mantendo a depuração local enquanto usa sua stack de agente existente.

FAQ

  • Workshop é só para Claude Code? A página enfatiza a integração com Claude Code: Claude Code lê traces e escreve/executa evals. O Workshop em si é posicionado como depurador local; o loop de escrita de eval é descrito especificamente com Claude Code.

  • O que significa “traces em streaming ao vivo”? A página descreve streaming de “cada token, cada chamada de ferramenta, cada decisão” para o Workshop sem polling ou refresh, usando conexão local localhost:5899.

  • Quais linguagens de programação ou frameworks são suportados? A página lista compatibilidade com TypeScript e Python, e também menciona Rust e Go, junto com Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI e Mastra.

  • Como funcionam os agent evals no Workshop? No exemplo mostrado, traces são usados para gerar testes de eval (asserções), os testes são executados, e falhas disparam correções no código seguidas de reexecução do agente até as asserções passarem.

Alternativas

  • Logging local + harness de testes para execuções de agente: Em vez de visualizador de trace e loop de eval integrado, você pode criar sua própria instrumentação para logar chamadas de ferramentas/tokens e executar testes unitários/integração em saídas de agente.
  • Outras ferramentas de observabilidade para agentes de IA: Alternativas da categoria incluem ferramentas focadas em monitorar execuções de agente e visualizar traces; elas podem diferir por suportar ou não um loop integrado de escrita e iteração de eval.
  • Depuração nativa de framework: Se você usa uma stack específica (ex.: LangChain/LlamaIndex), pode depender do tracing/logging embutido e criar scripts de eval separadamente, em vez de usar Workshop como depurador local dedicado.