Raindrop

什么是 Raindrop？

Raindrop 的 Workshop 是 AI 代理的本地调试器，旨在帮助您观察代理行为并使用 agent evals 验证。它实时流式传输代理正在执行的操作，包括 tokens 和工具调用，因此您可以在代理运行于 localhost 时实时查看决策过程。

工作流程以 Claude Code 为中心：Workshop 记录代理执行的轨迹，然后 Claude Code 可以针对这些行为编写并运行评估测试——可选地通过自愈循环，在失败时进行代码更改并重新运行，直至断言通过。

localhost 上实时流式代理轨迹：查看代理运行时的每个 token、工具调用和决策，无需轮询或页面刷新，直接流式传输至 Workshop。
轨迹 + 轨迹查看用于调试：界面显示“Overview”、“Span Tree”和“Comms”等轨迹，帮助您检查代理的推理过程和调用的工具。
与 Claude Code 集成：Claude Code 读取 Workshop 轨迹，生成 agent evals 并根据评估结果更新代码。
可重新运行和迭代的 evals：Workshop 支持 eval 工作流程，编写、运行和验证测试（例如，关于后续问题或行为的断言），修复后重新执行。
兼容常见代理/编码生态：页面列出与 Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI、Mastra 的兼容性，以及 Claude Code CLI 和 Cursor、OpenCode 等编辑器/代理相关工具。

使用提供的脚本安装 Workshop：

curl -fsSL https://raindrop.sh/install | bash

本地启动 Workshop 并运行您的代理，使其连接到本地服务器（页面显示 localhost:5899 端点）。
打开 Workshop 观看代理运行时轨迹实时流式传输。
使用 Claude Code 基于轨迹数据编写并运行 evals。当 eval 失败时，Claude Code 可以进行更改并重新运行代理，直至断言通过（如同流式示例所示）。

调试跳过必要后续问题的代理：记录轨迹，运行断言后续问题是否被问及的 eval，然后使用 Claude Code 更新提示或逻辑，使 eval 通过。
跨多会话验证工具调用行为：比较代理在不同运行中的行为（例如，轨迹列表中显示的多个“agent sessions”），确认一致性。
为代理提示创建针对性回归检查：使用 eval 测试（例如，检查“不会跳到诊断”）确保提示更改不会重新引入已修复问题。
检查执行通信和 span 结构：查看“Comms”和“Span Tree”以了解失败前代理的操作和发生的工具调用。
支持多框架代理开发：在页面列出的 SDK 和框架（例如 LangChain/LlamaIndex/CrewAI）构建代理时使用 Workshop，保持调试本地化，同时运行您已有的代理栈。

Workshop 仅适用于 Claude Code 吗？ 页面强调 Claude Code 集成：Claude Code 读取轨迹并编写/运行 evals。Workshop 本身定位为本地调试器；eval 编写循环特别描述为与 Claude Code 相关。
“实时流式轨迹”是什么意思？ 页面描述无轮询或刷新地将“每个 token、每个工具调用、每个决策”流式传输至 Workshop，使用本地 localhost:5899 连接。
支持哪些编程语言或框架？ 页面列出与 TypeScript 和 Python 的兼容性，还提及 Rust 和 Go，以及 Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI 和 Mastra。
Workshop 中的 agent evals 如何工作？ 在所示示例中，轨迹用于生成 eval 测试（断言），运行测试，失败时触发代码修复，然后重新运行代理直至断言通过。

本地日志 + 代理运行测试框架：代替轨迹查看器和集成 eval 循环，您可以构建自己的仪表化来记录工具调用/tokens，并在代理输出周围运行单元/集成测试。
其他 AI 代理可观测性工具：类别替代品包括专注于监控代理运行和可视化轨迹的工具；它们可能在是否支持集成 eval 编写和迭代循环方面有所不同。
框架原生调试：如果使用特定栈（例如 LangChain/LlamaIndex），您可以依赖其内置跟踪/日志，并单独创建 eval 脚本，而不是使用 Workshop 作为专用本地调试器。