Raindrop
Raindrop Workshop 是本機 AI 代理除錯工具,可即時串流執行追蹤;搭配 Claude Code 整合,協助你依行為撰寫並執行 agent evals。
Raindrop 是什麼?
Raindrop 的 Workshop 是 AI 代理的本機除錯工具,設計用來幫助你觀察代理行為並以 agent evals 驗證。它會即時串流代理正在執行的內容,包括 tokens 和工具呼叫,讓你能在代理於 localhost 執行時即時看到決策過程。
工作流程以 Claude Code 為中心:Workshop 記錄代理執行的追蹤,Claude Code 則可依據這些行為撰寫並執行評估測試—可選擇進入自我修復迴圈,失敗時會變更程式碼並重新執行,直到斷言通過。
主要功能
- localhost 即時串流代理追蹤:代理執行時可看到每個 token、工具呼叫和決策,串流至 Workshop,無需輪詢或頁面重新整理。
- 用於除錯的軌跡 + 追蹤檢視:介面顯示如「概覽」、「Span Tree」和「通訊」等追蹤,幫助你檢查代理的推理過程及調用工具。
- 整合 Claude Code:Claude Code 讀取 Workshop 追蹤來產生 agent evals,並依評估結果更新程式碼。
- 可重複執行與迭代的 evals:Workshop 支援評估工作流程,撰寫、執行並驗證測試(例如後續問題或行為的斷言),修正後重新執行。
- 適用於常見代理/程式設計生態系:頁面列出與 Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI、Mastra 的相容性,以及相關工具如 Claude Code CLI 和 Cursor、OpenCode 等編輯器/代理。
如何使用 Raindrop
- 使用提供的腳本安裝 Workshop:
curl -fsSL https://raindrop.sh/install | bash - 在本地啟動 Workshop 並執行你的代理,讓它連接到本地伺服器(頁面顯示
localhost:5899端點)。 - 開啟 Workshop 觀看代理執行時追蹤串流。
- 使用 Claude Code 依追蹤資料撰寫並執行 evals。評估失敗時,Claude Code 可變更並重新執行代理,直到斷言通過(如同串流範例所示)。
使用情境
- 除錯遺漏必要後續問題的代理:記錄追蹤,執行斷言後續問題會被詢問的評估,然後用 Claude Code 更新提示或邏輯讓評估通過。
- 跨多個工作階段驗證工具呼叫行為:比較代理在不同執行(例如追蹤清單中的多個「代理工作階段」)的行為,確認一致性。
- 為代理提示建立針對性回歸檢查:使用評估測試(例如「不直接跳至診斷」的檢查)確保提示變更不會重新引入先前修正的問題。
- 檢查執行通訊與 span 結構:檢視「通訊」和「Span Tree」來了解代理在失敗前的動作及發生的工具呼叫。
- 支援多框架代理開發:使用頁面列出的 SDK 和框架(例如 LangChain/LlamaIndex/CrewAI)建置代理時使用 Workshop,保持除錯本地化,同時執行既有代理堆疊。
常見問題
-
Workshop 只適用 Claude Code 嗎? 頁面強調 Claude Code 整合:Claude Code 讀取追蹤並撰寫/執行 evals。Workshop 本身定位為本機除錯工具;評估撰寫迴圈特別描述為使用 Claude Code。
-
「即時串流追蹤」是什麼意思? 頁面描述無需輪詢或重新整理,即串流「每個 token、每個工具呼叫、每個決策」至 Workshop,使用本地
localhost:5899連線。 -
支援哪些程式語言或框架? 頁面列出與 TypeScript 和 Python 的相容性,也提及 Rust 和 Go,以及 Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI 和 Mastra。
-
Workshop 中的 agent evals 如何運作? 範例中,追蹤用來產生評估測試(斷言),執行測試,失敗時觸發程式碼修正並重新執行代理直到斷言通過。
替代方案
- 代理執行的本地記錄 + 測試框架:取代追蹤檢視和整合評估迴圈,你可自行建置儀表化記錄工具呼叫/tokens,並在代理輸出周圍執行單元/整合測試。
- 其他 AI 代理可觀察性工具:類別替代品包括專注監控代理執行及視覺化追蹤的工具;差異在於是否支援整合評估撰寫與迭代迴圈。
- 框架原生除錯:若使用特定堆疊(例如 LangChain/LlamaIndex),可依賴其內建追蹤/記錄,並單獨建立評估腳本,而非使用 Workshop 作為專用本機除錯工具。
替代品
Codex Plugins
使用 Codex Plugins 將技能、應用程式整合與 MCP 伺服器打包成可重複使用的工作流程,讓 Codex 存取 Gmail、Google Drive、Slack 等工具。
ClawTick
ClawTick 是以 CLI 為核心的 AI 代理自動化平台,可用 cron 排程 webhook 任務,提供監控、警報、重試與執行紀錄。
Falconer
Falconer 是自動更新的知識平台,讓高速度團隊在同一處撰寫、分享並搜尋可靠的內部文件與程式碼脈絡。
OpenFlags
OpenFlags 是開源、可自架設的功能旗標系統,支援逐步交付;App SDK 可本地評估,控制平面提供安全、精準的發佈。
AakarDev AI
AakarDev AI 是一個強大的平台,通過無縫的向量資料庫整合簡化 AI 應用程式的開發,實現快速部署和可擴展性。
Whirr
Whirr 是一款安靜的 macOS 選單列 App,可將 Claude Code 代理活動鏡像到 Mac 螢幕凹槽,讓你一瞥即可掌握進行狀態。