Raindrop
Raindrop 的 Workshop 是 AI 代理的本地调试器,可实时流式展示执行轨迹;结合 Claude Code 集成,便于基于捕获行为运行 agent evals。
什么是 Raindrop?
Raindrop 的 Workshop 是 AI 代理的本地调试器,旨在帮助您观察代理行为并使用 agent evals 验证。它实时流式传输代理正在执行的操作,包括 tokens 和工具调用,因此您可以在代理运行于 localhost 时实时查看决策过程。
工作流程以 Claude Code 为中心:Workshop 记录代理执行的轨迹,然后 Claude Code 可以针对这些行为编写并运行评估测试——可选地通过自愈循环,在失败时进行代码更改并重新运行,直至断言通过。
主要特性
- localhost 上实时流式代理轨迹:查看代理运行时的每个 token、工具调用和决策,无需轮询或页面刷新,直接流式传输至 Workshop。
- 轨迹 + 轨迹查看用于调试:界面显示“Overview”、“Span Tree”和“Comms”等轨迹,帮助您检查代理的推理过程和调用的工具。
- 与 Claude Code 集成:Claude Code 读取 Workshop 轨迹,生成 agent evals 并根据评估结果更新代码。
- 可重新运行和迭代的 evals:Workshop 支持 eval 工作流程,编写、运行和验证测试(例如,关于后续问题或行为的断言),修复后重新执行。
- 兼容常见代理/编码生态:页面列出与 Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI、Mastra 的兼容性,以及 Claude Code CLI 和 Cursor、OpenCode 等编辑器/代理相关工具。
如何使用 Raindrop
- 使用提供的脚本安装 Workshop:
curl -fsSL https://raindrop.sh/install | bash - 本地启动 Workshop 并运行您的代理,使其连接到本地服务器(页面显示
localhost:5899端点)。 - 打开 Workshop 观看代理运行时轨迹实时流式传输。
- 使用 Claude Code 基于轨迹数据编写并运行 evals。当 eval 失败时,Claude Code 可以进行更改并重新运行代理,直至断言通过(如同流式示例所示)。
使用场景
- 调试跳过必要后续问题的代理:记录轨迹,运行断言后续问题是否被问及的 eval,然后使用 Claude Code 更新提示或逻辑,使 eval 通过。
- 跨多会话验证工具调用行为:比较代理在不同运行中的行为(例如,轨迹列表中显示的多个“agent sessions”),确认一致性。
- 为代理提示创建针对性回归检查:使用 eval 测试(例如,检查“不会跳到诊断”)确保提示更改不会重新引入已修复问题。
- 检查执行通信和 span 结构:查看“Comms”和“Span Tree”以了解失败前代理的操作和发生的工具调用。
- 支持多框架代理开发:在页面列出的 SDK 和框架(例如 LangChain/LlamaIndex/CrewAI)构建代理时使用 Workshop,保持调试本地化,同时运行您已有的代理栈。
常见问题
-
Workshop 仅适用于 Claude Code 吗? 页面强调 Claude Code 集成:Claude Code 读取轨迹并编写/运行 evals。Workshop 本身定位为本地调试器;eval 编写循环特别描述为与 Claude Code 相关。
-
“实时流式轨迹”是什么意思? 页面描述无轮询或刷新地将“每个 token、每个工具调用、每个决策”流式传输至 Workshop,使用本地
localhost:5899连接。 -
支持哪些编程语言或框架? 页面列出与 TypeScript 和 Python 的兼容性,还提及 Rust 和 Go,以及 Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI 和 Mastra。
-
Workshop 中的 agent evals 如何工作? 在所示示例中,轨迹用于生成 eval 测试(断言),运行测试,失败时触发代码修复,然后重新运行代理直至断言通过。
替代方案
- 本地日志 + 代理运行测试框架:代替轨迹查看器和集成 eval 循环,您可以构建自己的仪表化来记录工具调用/tokens,并在代理输出周围运行单元/集成测试。
- 其他 AI 代理可观测性工具:类别替代品包括专注于监控代理运行和可视化轨迹的工具;它们可能在是否支持集成 eval 编写和迭代循环方面有所不同。
- 框架原生调试:如果使用特定栈(例如 LangChain/LlamaIndex),您可以依赖其内置跟踪/日志,并单独创建 eval 脚本,而不是使用 Workshop 作为专用本地调试器。
替代品
Codex Plugins
使用 Codex Plugins 将技能、应用集成和 MCP 服务器打包成可复用工作流,扩展 Codex 访问 Gmail、Google Drive 与 Slack 等工具。
ClawTick
ClawTick 是 CLI 优先的 AI 代理自动化平台,可按 cron 调度基于 webhook 的任务,并提供监控、告警、重试与执行日志。
Falconer
Falconer 是自更新知识平台,帮高速度团队在一个地方编写、分享并搜索可靠内部文档与代码上下文。
OpenFlags
OpenFlags 是开源自托管功能开关系统,支持渐进式交付;应用 SDK 本地评估,配套简单控制平面实现安全定向发布。
AakarDev AI
AakarDev AI 是一个强大的平台,通过无缝的向量数据库集成简化 AI 应用程序的开发,实现快速部署和可扩展性。
Whirr
Whirr 是一款安静的 macOS 菜单栏应用,将 Claude Code 代理活动镜像到 Mac 刘海处,让你无需盯屏即可一眼查看进展。