UStackUStack
Raindrop icon

Raindrop

Raindrop 的 Workshop 是 AI 代理的本地调试器,可实时流式展示执行轨迹;结合 Claude Code 集成,便于基于捕获行为运行 agent evals。

Raindrop

什么是 Raindrop?

Raindrop 的 Workshop 是 AI 代理的本地调试器,旨在帮助您观察代理行为并使用 agent evals 验证。它实时流式传输代理正在执行的操作,包括 tokens 和工具调用,因此您可以在代理运行于 localhost 时实时查看决策过程。

工作流程以 Claude Code 为中心:Workshop 记录代理执行的轨迹,然后 Claude Code 可以针对这些行为编写并运行评估测试——可选地通过自愈循环,在失败时进行代码更改并重新运行,直至断言通过。

主要特性

  • localhost 上实时流式代理轨迹:查看代理运行时的每个 token、工具调用和决策,无需轮询或页面刷新,直接流式传输至 Workshop。
  • 轨迹 + 轨迹查看用于调试:界面显示“Overview”、“Span Tree”和“Comms”等轨迹,帮助您检查代理的推理过程和调用的工具。
  • 与 Claude Code 集成:Claude Code 读取 Workshop 轨迹,生成 agent evals 并根据评估结果更新代码。
  • 可重新运行和迭代的 evals:Workshop 支持 eval 工作流程,编写、运行和验证测试(例如,关于后续问题或行为的断言),修复后重新执行。
  • 兼容常见代理/编码生态:页面列出与 Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI、Mastra 的兼容性,以及 Claude Code CLI 和 Cursor、OpenCode 等编辑器/代理相关工具。

如何使用 Raindrop

  1. 使用提供的脚本安装 Workshop
    curl -fsSL https://raindrop.sh/install | bash
    
  2. 本地启动 Workshop 并运行您的代理,使其连接到本地服务器(页面显示 localhost:5899 端点)。
  3. 打开 Workshop 观看代理运行时轨迹实时流式传输。
  4. 使用 Claude Code 基于轨迹数据编写并运行 evals。当 eval 失败时,Claude Code 可以进行更改并重新运行代理,直至断言通过(如同流式示例所示)。

使用场景

  • 调试跳过必要后续问题的代理:记录轨迹,运行断言后续问题是否被问及的 eval,然后使用 Claude Code 更新提示或逻辑,使 eval 通过。
  • 跨多会话验证工具调用行为:比较代理在不同运行中的行为(例如,轨迹列表中显示的多个“agent sessions”),确认一致性。
  • 为代理提示创建针对性回归检查:使用 eval 测试(例如,检查“不会跳到诊断”)确保提示更改不会重新引入已修复问题。
  • 检查执行通信和 span 结构:查看“Comms”和“Span Tree”以了解失败前代理的操作和发生的工具调用。
  • 支持多框架代理开发:在页面列出的 SDK 和框架(例如 LangChain/LlamaIndex/CrewAI)构建代理时使用 Workshop,保持调试本地化,同时运行您已有的代理栈。

常见问题

  • Workshop 仅适用于 Claude Code 吗? 页面强调 Claude Code 集成:Claude Code 读取轨迹并编写/运行 evals。Workshop 本身定位为本地调试器;eval 编写循环特别描述为与 Claude Code 相关。

  • “实时流式轨迹”是什么意思? 页面描述无轮询或刷新地将“每个 token、每个工具调用、每个决策”流式传输至 Workshop,使用本地 localhost:5899 连接。

  • 支持哪些编程语言或框架? 页面列出与 TypeScript 和 Python 的兼容性,还提及 Rust 和 Go,以及 Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI 和 Mastra。

  • Workshop 中的 agent evals 如何工作? 在所示示例中,轨迹用于生成 eval 测试(断言),运行测试,失败时触发代码修复,然后重新运行代理直至断言通过。

替代方案

  • 本地日志 + 代理运行测试框架:代替轨迹查看器和集成 eval 循环,您可以构建自己的仪表化来记录工具调用/tokens,并在代理输出周围运行单元/集成测试。
  • 其他 AI 代理可观测性工具:类别替代品包括专注于监控代理运行和可视化轨迹的工具;它们可能在是否支持集成 eval 编写和迭代循环方面有所不同。
  • 框架原生调试:如果使用特定栈(例如 LangChain/LlamaIndex),您可以依赖其内置跟踪/日志,并单独创建 eval 脚本,而不是使用 Workshop 作为专用本地调试器。