Raindrop
RaindropのWorkshopはAIエージェント用ローカルデバッガ。実行トレースをリアルタイム配信し、Claude Codeでエージェントevalを実行・検証します。
Raindropとは?
RaindropのWorkshopは、AIエージェント用のローカルデバッガで、エージェントの動作を観察し、エージェントevalで検証するのに役立ちます。エージェントがlocalhostで実行中、トークンやツール呼び出しを含むリアルタイムの動作をストリーミングし、決定プロセスをその場で確認できます。
ワークフローはClaude Codeを中心に:Workshopがエージェント実行のトレースを記録し、Claude Codeがその動作に対して評価テストを作成・実行します。オプションで、失敗時にコード変更と再実行を繰り返す自己修復ループでアサーションが通るまで進めます。
主な機能
- localhostでのライブストリームエージェントトレース: エージェント実行中のトークン、ツール呼び出し、決定をすべて確認。ポーリングやページ更新なしでWorkshopにストリーミング。
- デバッグ用の軌跡+トレース表示: 「Overview」「Span Tree」「Comms」などのトレースを表示し、エージェントの推論プロセスや使用ツールを検査。
- Claude Codeとの統合: Claude CodeがWorkshopのトレースを読み込み、エージェントevalを生成し、評価結果に基づいてコードを更新。
- 再実行・反復可能なeval: テスト作成・実行・検証(例: フォローアップ質問や動作のアサーション)をサポート。修正後に再実行。
- 一般的なエージェント/コーディングエコシステムと併用: Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI、Mastra、およびClaude Code CLIやCursor/OpenCodeなどのツールとの互換性を記載。
Raindropの使い方
- Workshopをインストール(提供スクリプト使用):
curl -fsSL https://raindrop.sh/install | bash - ローカルでWorkshopを起動し、エージェントを実行してローカルサーバー(
localhost:5899エンドポイント)に接続。 - Workshopを開くと、エージェント実行中にトレースがストリーミング表示。
- Claude Codeでトレースデータに基づくevalを作成・実行。eval失敗時、Claude Codeが変更を加え、アサーション通過までエージェントを再実行(ストリーム例で実演)。
ユースケース
- 必須フォローアップをスキップするエージェントのデバッグ: トレースを記録し、フォローアップ質問をアサートするevalを実行。Claude Codeでプロンプトやロジックを更新し、eval通過。
- 複数セッションでのツール呼び出し動作検証: トレースリストの複数「agent sessions」で動作を比較し、一貫性を確認。
- エージェントプロンプト向け回帰チェック作成: evalテスト(例: 「診断に飛びつかない」チェック)で、プロンプト変更が過去修正問題を再導入しないか確認。
- 実行CommsとSpan構造の検査: 「Comms」「Span Tree」ビューで、失敗前の動作とツール呼び出しを確認。
- マルチフレームワークエージェント開発支援: 記載SDK/フレームワーク(例: LangChain/LlamaIndex/CrewAI)でエージェント構築中、既存スタックをそのまま使いローカルデバッグ。
FAQ
-
WorkshopはClaude Code専用ですか? ページはClaude Code統合を強調: Claude Codeがトレースを読み込みevalを作成・実行。Workshop自体はローカルデバッガとして位置づけられ、evalループはClaude Code特化で記述。
-
「ライブストリームトレース」とは? ページでは「トークン、ツール呼び出し、決定」をポーリング/更新なしでWorkshopにストリーミング、
localhost:5899接続で記述。 -
対応プログラミング言語やフレームワークは? ページでTypeScript、Pythonの互換性を記載。Rust、Goも言及し、Vercel AI SDK、OpenAI SDK、Anthropic SDK、LangChain、LlamaIndex、CrewAI、Mastraをリスト。
-
Workshopでのエージェントevalの仕組みは? 表示例では、トレースでevalテスト(アサーション)を生成、実行。失敗でコード修正後、エージェント再実行までアサーション通過。
代替案
- ローカルログ+エージェント実行テストハーネス: トレースビューや統合evalループの代わりに、ツール呼び出し/トークンをログする計測と、出力周りのユニット/インテグレーションテストを自作。
- 他のAIエージェント観測ツール: エージェント実行監視・トレース可視化に特化。統合eval作成・反復ループの有無で差異。
- フレームワーク内蔵デバッグ: 特定スタック(例: LangChain/LlamaIndex)使用時、内蔵トレース/ログに頼り、evalスクリプトを別途作成。専用ローカルデバッガとしてWorkshopを使わず。
代替品
Codex Plugins
Codex Pluginsでスキル、アプリ連携、MCPサーバーを再利用可能なワークフローにまとめ、Gmail・Google Drive・Slack等のツールにアクセス。
ClawTick
ClawTickはCLIでcronスケジュールに沿ってWebhookタスクを自動実行するAIエージェント向け基盤。監視・アラート・リトライ・実行ログ搭載。
Falconer
Falconerは、スピード重視のチーム向けの自己更新ナレッジ基盤。社内ドキュメントとコード文脈を一元化して共有・検索できます。
OpenFlags
OpenFlagsはオープンソースのセルフホスト型フィーチャーフラグ管理。アプリSDKでローカル評価し、制御プレーンで安全に段階展開。
AakarDev AI
AakarDev AIは、シームレスなベクターデータベース統合を通じてAIアプリケーションの開発を簡素化し、迅速な展開とスケーラビリティを実現する強力なプラットフォームです。
Whirr
WhirrはmacOSのメニューバー常駐アプリ。Claude Codeエージェントの作業状況をノッチに静かにミラーし、画面確認なしで一目確認。