UStackUStack
Raindrop icon

Raindrop

RaindropのWorkshopはAIエージェント用ローカルデバッガ。実行トレースをリアルタイム配信し、Claude Codeでエージェントevalを実行・検証します。

Raindrop

Raindropとは?

RaindropのWorkshopは、AIエージェント用のローカルデバッガで、エージェントの動作を観察し、エージェントevalで検証するのに役立ちます。エージェントがlocalhostで実行中、トークンやツール呼び出しを含むリアルタイムの動作をストリーミングし、決定プロセスをその場で確認できます。

ワークフローはClaude Codeを中心に:Workshopがエージェント実行のトレースを記録し、Claude Codeがその動作に対して評価テストを作成・実行します。オプションで、失敗時にコード変更と再実行を繰り返す自己修復ループでアサーションが通るまで進めます。

主な機能

  • localhostでのライブストリームエージェントトレース: エージェント実行中のトークン、ツール呼び出し、決定をすべて確認。ポーリングやページ更新なしでWorkshopにストリーミング。
  • デバッグ用の軌跡+トレース表示: 「Overview」「Span Tree」「Comms」などのトレースを表示し、エージェントの推論プロセスや使用ツールを検査。
  • Claude Codeとの統合: Claude CodeがWorkshopのトレースを読み込み、エージェントevalを生成し、評価結果に基づいてコードを更新。
  • 再実行・反復可能なeval: テスト作成・実行・検証(例: フォローアップ質問や動作のアサーション)をサポート。修正後に再実行。
  • 一般的なエージェント/コーディングエコシステムと併用: Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI、Mastra、およびClaude Code CLIやCursor/OpenCodeなどのツールとの互換性を記載。

Raindropの使い方

  1. Workshopをインストール(提供スクリプト使用):
    curl -fsSL https://raindrop.sh/install | bash
    
  2. ローカルでWorkshopを起動し、エージェントを実行してローカルサーバー(localhost:5899エンドポイント)に接続。
  3. Workshopを開くと、エージェント実行中にトレースがストリーミング表示。
  4. Claude Codeでトレースデータに基づくevalを作成・実行。eval失敗時、Claude Codeが変更を加え、アサーション通過までエージェントを再実行(ストリーム例で実演)。

ユースケース

  • 必須フォローアップをスキップするエージェントのデバッグ: トレースを記録し、フォローアップ質問をアサートするevalを実行。Claude Codeでプロンプトやロジックを更新し、eval通過。
  • 複数セッションでのツール呼び出し動作検証: トレースリストの複数「agent sessions」で動作を比較し、一貫性を確認。
  • エージェントプロンプト向け回帰チェック作成: evalテスト(例: 「診断に飛びつかない」チェック)で、プロンプト変更が過去修正問題を再導入しないか確認。
  • 実行CommsとSpan構造の検査: 「Comms」「Span Tree」ビューで、失敗前の動作とツール呼び出しを確認。
  • マルチフレームワークエージェント開発支援: 記載SDK/フレームワーク(例: LangChain/LlamaIndex/CrewAI)でエージェント構築中、既存スタックをそのまま使いローカルデバッグ。

FAQ

  • WorkshopはClaude Code専用ですか? ページはClaude Code統合を強調: Claude Codeがトレースを読み込みevalを作成・実行。Workshop自体はローカルデバッガとして位置づけられ、evalループはClaude Code特化で記述。

  • 「ライブストリームトレース」とは? ページでは「トークン、ツール呼び出し、決定」をポーリング/更新なしでWorkshopにストリーミング、localhost:5899接続で記述。

  • 対応プログラミング言語やフレームワークは? ページでTypeScript、Pythonの互換性を記載。Rust、Goも言及し、Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI、Mastraをリスト。

  • Workshopでのエージェントevalの仕組みは? 表示例では、トレースでevalテスト(アサーション)を生成、実行。失敗でコード修正後、エージェント再実行までアサーション通過。

代替案

  • ローカルログ+エージェント実行テストハーネス: トレースビューや統合evalループの代わりに、ツール呼び出し/トークンをログする計測と、出力周りのユニット/インテグレーションテストを自作。
  • 他のAIエージェント観測ツール: エージェント実行監視・トレース可視化に特化。統合eval作成・反復ループの有無で差異。
  • フレームワーク内蔵デバッグ: 特定スタック(例: LangChain/LlamaIndex)使用時、内蔵トレース/ログに頼り、evalスクリプトを別途作成。専用ローカルデバッガとしてWorkshopを使わず。