UStackUStack
Raindrop icon

Raindrop

Workshop by Raindrop es un depurador local para agentes de IA: transmite trazas de ejecución en tiempo real e integra con Claude Code para evals.

Raindrop

¿Qué es Raindrop?

Workshop de Raindrop es un depurador local para agentes de IA, diseñado para ayudarte a observar el comportamiento del agente y validarlo con evals de agente. Transmite en tiempo real lo que hace tu agente, incluyendo tokens y llamadas a herramientas, para que veas las decisiones mientras el agente se ejecuta en localhost.

El flujo de trabajo se centra en Claude Code: Workshop graba trazas de la ejecución del agente, luego Claude Code puede escribir y ejecutar pruebas de evaluación contra esos comportamientos, opcionalmente en un bucle de auto-reparación donde los fallos llevan a cambios de código y re-ejecuciones hasta que las aserciones pasen.

Características clave

  • Trazas de agente transmitidas en vivo en localhost: Ve cada token, llamada a herramienta y decisión mientras el agente se ejecuta, transmitidas a Workshop sin sondeos ni recargas de página.
  • Visualización de trayectorias + trazas para depuración: La interfaz muestra trazas como “Overview”, “Span Tree” y “Comms”, ayudándote a inspeccionar cómo razonó el agente y qué herramientas invocó.
  • Se integra con Claude Code: Claude Code lee las trazas de Workshop para generar evals de agente y actualizar código basado en los resultados de evaluación.
  • Evals que se pueden re-ejecutar e iterar: Workshop soporta un flujo de evals donde se escriben, ejecutan y verifican pruebas (p. ej., aserciones sobre preguntas de seguimiento o comportamiento), con re-ejecución tras correcciones.
  • Funciona junto a ecosistemas comunes de agentes/código: La página lista compatibilidad con Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI, Mastra, y herramientas relacionadas como el CLI de Claude Code y editores/agentes como Cursor y OpenCode.

Cómo usar Raindrop

  1. Instala Workshop con el script proporcionado:
    curl -fsSL https://raindrop.sh/install | bash
    
  2. Inicia Workshop localmente y ejecuta tu agente para que se conecte al servidor local (la página muestra un endpoint localhost:5899).
  3. Abre Workshop para ver las trazas transmitidas mientras tu agente se ejecuta.
  4. Usa Claude Code para escribir y ejecutar evals basados en los datos de traza. Cuando un eval falla, Claude Code puede hacer cambios y re-ejecutar el agente hasta que las aserciones pasen (como se demuestra en el ejemplo transmitido).

Casos de uso

  • Depura un agente que omite seguimientos requeridos: Graba una traza, ejecuta un eval que aserte que se preguntan preguntas de seguimiento, luego usa Claude Code para actualizar prompts o lógica hasta que el eval pase.
  • Valida comportamiento de llamadas a herramientas en múltiples sesiones: Compara cómo se comporta un agente en diferentes ejecuciones (por ejemplo, múltiples “sesiones de agente” mostradas en la lista de trazas) para confirmar consistencia.
  • Crea chequeos de regresión dirigidos para prompts de agente: Usa pruebas de eval (p. ej., chequeos de “no salta al diagnóstico”) para asegurar que cambios en prompts no reintroduzcan problemas ya corregidos.
  • Inspecciona comunicaciones de ejecución y estructura de spans: Revisa vistas “Comms” y “Span Tree” para entender qué hizo el agente antes de un fallo y qué llamadas a herramientas ocurrieron.
  • Soporta desarrollo de agentes multi-framework: Usa Workshop mientras construyes agentes con SDKs y frameworks listados en la página (p. ej., LangChain/LlamaIndex/CrewAI), manteniendo la depuración local mientras usas tu stack de agente existente.

Preguntas frecuentes

  • ¿Workshop es solo para Claude Code? La página enfatiza la integración con Claude Code: Claude Code lee trazas y escribe/ejecuta evals. Workshop en sí se posiciona como el depurador local; el bucle de escritura de evals se describe específicamente con Claude Code.

  • ¿Qué significa “trazas transmitidas en vivo”? La página describe la transmisión de “cada token, cada llamada a herramienta, cada decisión” a Workshop sin sondeos ni recargas, usando una conexión local localhost:5899.

  • ¿Qué lenguajes de programación o frameworks están soportados? La página lista compatibilidad con TypeScript y Python, y también menciona Rust y Go, junto con Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI y Mastra.

  • ¿Cómo funcionan los evals de agente en Workshop? En el ejemplo mostrado, las trazas se usan para generar pruebas de eval (aserciones), se ejecutan las pruebas y los fallos activan correcciones de código seguidas de re-ejecución del agente hasta que las aserciones pasen.

Alternativas

  • Registro local + arnés de pruebas para ejecuciones de agente: En lugar de un visor de trazas y bucle de eval integrado, puedes crear tu propia instrumentación para registrar llamadas a herramientas/tokens y ejecutar pruebas unitarias/de integración alrededor de salidas de agente.
  • Otras herramientas de observabilidad para agentes de IA: Alternativas de categoría incluyen herramientas enfocadas en monitorear ejecuciones de agente y visualizar trazas; pueden diferir en si soportan un bucle integrado de escritura e iteración de evals.
  • Depuración nativa de framework: Si usas un stack específico (p. ej., LangChain/LlamaIndex), puedes depender de su trazado/registro integrado y crear scripts de eval por separado, en lugar de usar Workshop como depurador local dedicado.