Raindrop
Workshop by Raindrop es un depurador local para agentes de IA: transmite trazas de ejecución en tiempo real e integra con Claude Code para evals.
¿Qué es Raindrop?
Workshop de Raindrop es un depurador local para agentes de IA, diseñado para ayudarte a observar el comportamiento del agente y validarlo con evals de agente. Transmite en tiempo real lo que hace tu agente, incluyendo tokens y llamadas a herramientas, para que veas las decisiones mientras el agente se ejecuta en localhost.
El flujo de trabajo se centra en Claude Code: Workshop graba trazas de la ejecución del agente, luego Claude Code puede escribir y ejecutar pruebas de evaluación contra esos comportamientos, opcionalmente en un bucle de auto-reparación donde los fallos llevan a cambios de código y re-ejecuciones hasta que las aserciones pasen.
Características clave
- Trazas de agente transmitidas en vivo en localhost: Ve cada token, llamada a herramienta y decisión mientras el agente se ejecuta, transmitidas a Workshop sin sondeos ni recargas de página.
- Visualización de trayectorias + trazas para depuración: La interfaz muestra trazas como “Overview”, “Span Tree” y “Comms”, ayudándote a inspeccionar cómo razonó el agente y qué herramientas invocó.
- Se integra con Claude Code: Claude Code lee las trazas de Workshop para generar evals de agente y actualizar código basado en los resultados de evaluación.
- Evals que se pueden re-ejecutar e iterar: Workshop soporta un flujo de evals donde se escriben, ejecutan y verifican pruebas (p. ej., aserciones sobre preguntas de seguimiento o comportamiento), con re-ejecución tras correcciones.
- Funciona junto a ecosistemas comunes de agentes/código: La página lista compatibilidad con Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI, Mastra, y herramientas relacionadas como el CLI de Claude Code y editores/agentes como Cursor y OpenCode.
Cómo usar Raindrop
- Instala Workshop con el script proporcionado:
curl -fsSL https://raindrop.sh/install | bash - Inicia Workshop localmente y ejecuta tu agente para que se conecte al servidor local (la página muestra un endpoint
localhost:5899). - Abre Workshop para ver las trazas transmitidas mientras tu agente se ejecuta.
- Usa Claude Code para escribir y ejecutar evals basados en los datos de traza. Cuando un eval falla, Claude Code puede hacer cambios y re-ejecutar el agente hasta que las aserciones pasen (como se demuestra en el ejemplo transmitido).
Casos de uso
- Depura un agente que omite seguimientos requeridos: Graba una traza, ejecuta un eval que aserte que se preguntan preguntas de seguimiento, luego usa Claude Code para actualizar prompts o lógica hasta que el eval pase.
- Valida comportamiento de llamadas a herramientas en múltiples sesiones: Compara cómo se comporta un agente en diferentes ejecuciones (por ejemplo, múltiples “sesiones de agente” mostradas en la lista de trazas) para confirmar consistencia.
- Crea chequeos de regresión dirigidos para prompts de agente: Usa pruebas de eval (p. ej., chequeos de “no salta al diagnóstico”) para asegurar que cambios en prompts no reintroduzcan problemas ya corregidos.
- Inspecciona comunicaciones de ejecución y estructura de spans: Revisa vistas “Comms” y “Span Tree” para entender qué hizo el agente antes de un fallo y qué llamadas a herramientas ocurrieron.
- Soporta desarrollo de agentes multi-framework: Usa Workshop mientras construyes agentes con SDKs y frameworks listados en la página (p. ej., LangChain/LlamaIndex/CrewAI), manteniendo la depuración local mientras usas tu stack de agente existente.
Preguntas frecuentes
-
¿Workshop es solo para Claude Code? La página enfatiza la integración con Claude Code: Claude Code lee trazas y escribe/ejecuta evals. Workshop en sí se posiciona como el depurador local; el bucle de escritura de evals se describe específicamente con Claude Code.
-
¿Qué significa “trazas transmitidas en vivo”? La página describe la transmisión de “cada token, cada llamada a herramienta, cada decisión” a Workshop sin sondeos ni recargas, usando una conexión local
localhost:5899. -
¿Qué lenguajes de programación o frameworks están soportados? La página lista compatibilidad con TypeScript y Python, y también menciona Rust y Go, junto con Vercel AI SDK, OpenAI SDK, Anthropic SDK, LangChain, LlamaIndex, CrewAI y Mastra.
-
¿Cómo funcionan los evals de agente en Workshop? En el ejemplo mostrado, las trazas se usan para generar pruebas de eval (aserciones), se ejecutan las pruebas y los fallos activan correcciones de código seguidas de re-ejecución del agente hasta que las aserciones pasen.
Alternativas
- Registro local + arnés de pruebas para ejecuciones de agente: En lugar de un visor de trazas y bucle de eval integrado, puedes crear tu propia instrumentación para registrar llamadas a herramientas/tokens y ejecutar pruebas unitarias/de integración alrededor de salidas de agente.
- Otras herramientas de observabilidad para agentes de IA: Alternativas de categoría incluyen herramientas enfocadas en monitorear ejecuciones de agente y visualizar trazas; pueden diferir en si soportan un bucle integrado de escritura e iteración de evals.
- Depuración nativa de framework: Si usas un stack específico (p. ej., LangChain/LlamaIndex), puedes depender de su trazado/registro integrado y crear scripts de eval por separado, en lugar de usar Workshop como depurador local dedicado.
Alternativas
Codex Plugins
Usa Codex Plugins para combinar skills, integraciones de apps y servidores MCP en flujos reutilizables que amplían el acceso de Codex a Gmail, Drive y Slack.
ClawTick
ClawTick es una plataforma de automatización de agentes con IA por CLI para programar tareas con webhooks en cron: monitoreo, alertas, reintentos y logs.
Falconer
Falconer es una plataforma de conocimiento autoactualizable para equipos ágiles: escribe, comparte y encuentra documentación interna y contexto de código en un solo lugar.
OpenFlags
OpenFlags es un sistema de feature flags open source y autohospedado con control plane y SDKs para evaluaciones locales y rollouts progresivos.
AakarDev AI
AakarDev AI es una plataforma poderosa que simplifica el desarrollo de aplicaciones de IA con integración fluida de bases de datos vectoriales, permitiendo un despliegue y escalabilidad rápidos.
Whirr
Whirr es una app silenciosa de la barra de menús en macOS que refleja la actividad de Claude Code en el notch para verla sin mirar la pantalla.