UStackUStack
Raindrop icon

Raindrop

Raindrop Workshop 是本機 AI 代理除錯工具,可即時串流執行追蹤;搭配 Claude Code 整合,協助你依行為撰寫並執行 agent evals。

Raindrop

Raindrop 是什麼?

Raindrop 的 Workshop 是 AI 代理的本機除錯工具,設計用來幫助你觀察代理行為並以 agent evals 驗證。它會即時串流代理正在執行的內容,包括 tokens 和工具呼叫,讓你能在代理於 localhost 執行時即時看到決策過程。

工作流程以 Claude Code 為中心:Workshop 記錄代理執行的追蹤,Claude Code 則可依據這些行為撰寫並執行評估測試—可選擇進入自我修復迴圈,失敗時會變更程式碼並重新執行,直到斷言通過。

主要功能

  • localhost 即時串流代理追蹤:代理執行時可看到每個 token、工具呼叫和決策,串流至 Workshop,無需輪詢或頁面重新整理。
  • 用於除錯的軌跡 + 追蹤檢視:介面顯示如「概覽」、「Span Tree」和「通訊」等追蹤,幫助你檢查代理的推理過程及調用工具。
  • 整合 Claude Code:Claude Code 讀取 Workshop 追蹤來產生 agent evals,並依評估結果更新程式碼。
  • 可重複執行與迭代的 evals:Workshop 支援評估工作流程,撰寫、執行並驗證測試(例如後續問題或行為的斷言),修正後重新執行。
  • 適用於常見代理/程式設計生態系:頁面列出與 Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI、Mastra 的相容性,以及相關工具如 Claude Code CLI 和 Cursor、OpenCode 等編輯器/代理。

如何使用 Raindrop

  1. 使用提供的腳本安裝 Workshop
    curl -fsSL https://raindrop.sh/install | bash
    
  2. 在本地啟動 Workshop 並執行你的代理,讓它連接到本地伺服器(頁面顯示 localhost:5899 端點)。
  3. 開啟 Workshop 觀看代理執行時追蹤串流。
  4. 使用 Claude Code 依追蹤資料撰寫並執行 evals。評估失敗時,Claude Code 可變更並重新執行代理,直到斷言通過(如同串流範例所示)。

使用情境

  • 除錯遺漏必要後續問題的代理:記錄追蹤,執行斷言後續問題會被詢問的評估,然後用 Claude Code 更新提示或邏輯讓評估通過。
  • 跨多個工作階段驗證工具呼叫行為:比較代理在不同執行(例如追蹤清單中的多個「代理工作階段」)的行為,確認一致性。
  • 為代理提示建立針對性回歸檢查:使用評估測試(例如「不直接跳至診斷」的檢查)確保提示變更不會重新引入先前修正的問題。
  • 檢查執行通訊與 span 結構:檢視「通訊」和「Span Tree」來了解代理在失敗前的動作及發生的工具呼叫。
  • 支援多框架代理開發:使用頁面列出的 SDK 和框架(例如 LangChain/LlamaIndex/CrewAI)建置代理時使用 Workshop,保持除錯本地化,同時執行既有代理堆疊。

常見問題

  • Workshop 只適用 Claude Code 嗎? 頁面強調 Claude Code 整合:Claude Code 讀取追蹤並撰寫/執行 evals。Workshop 本身定位為本機除錯工具;評估撰寫迴圈特別描述為使用 Claude Code。

  • 「即時串流追蹤」是什麼意思? 頁面描述無需輪詢或重新整理,即串流「每個 token、每個工具呼叫、每個決策」至 Workshop,使用本地 localhost:5899 連線。

  • 支援哪些程式語言或框架? 頁面列出與 TypeScript 和 Python 的相容性,也提及 Rust 和 Go,以及 Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI 和 Mastra。

  • Workshop 中的 agent evals 如何運作? 範例中,追蹤用來產生評估測試(斷言),執行測試,失敗時觸發程式碼修正並重新執行代理直到斷言通過。

替代方案

  • 代理執行的本地記錄 + 測試框架:取代追蹤檢視和整合評估迴圈,你可自行建置儀表化記錄工具呼叫/tokens,並在代理輸出周圍執行單元/整合測試。
  • 其他 AI 代理可觀察性工具:類別替代品包括專注監控代理執行及視覺化追蹤的工具;差異在於是否支援整合評估撰寫與迭代迴圈。
  • 框架原生除錯:若使用特定堆疊(例如 LangChain/LlamaIndex),可依賴其內建追蹤/記錄,並單獨建立評估腳本,而非使用 Workshop 作為專用本機除錯工具。