ClawdTalk
ClawdTalkでClawdbotを音声通話対応に。音声認識・文字起こし・自然な音声読み上げ、さらに双方向通話とPIN保護(オプション)。
ClawdTalkとは?
ClawdTalkは、既存の「Clawdbot」(OpenClaw)向けの音声通話レイヤーで、ボットがテキストのみでなく電話対応を可能にします。ボットは構造化メッセージの送受信を継続しつつ、ClawdTalkが音声認識、音声合成、双方向通話を追加し、発信者が話して音声返答を聞けるようにします。
主な目的はボットを実際の電話通話に接続すること:スキルインストール、数検証後、電話回線のようにClawdBotに電話。通話にPIN保護を追加可能で、システムは公開ゲートウェイ不要の永続的なアウトバウンドWebSocket接続を使用します。
主な機能
- 双方向通話(ボット→電話、電話→ボット): 電話番号からボットに電話、またはボットに「call me」と依頼;どちらもすぐに使えます。
- 音声認識と文字起こし: 発信者の音声を文字起こしし、それをボットのテキスト入力として使用。
- 自然な音声合成(Telnyx NaturalHD): 「自然な」音声合成(Telnyxボイス使用)でクリアで人間らしい音声を出力。
- サーバー側PIN保護: PINを設定し、必要PINなしの通話を拒否;呼び出し検証はサーバー側で施行。
- WebSocketベースのプライベート接続: 永続的なアウトバウンドWebSocket接続を使用し、公開ゲートウェイ不要;NATやファイアウォール裏でも動作。
- HDボイス対応: ボットへの通話はAMR-WBコーデック(広帯域品質)でHD Voiceをサポート。
ClawdTalkの使い方
- Clawdbot(OpenClaw)を接続。 ClawdTalkはボット横に配置される音声レイヤー。
- ClawdTalkスキルをインストールし、番号を検証(セットアップの一部)。
- (推奨)PIN保護を設定。 サインアップ時にPINを設定し、通話アクセスルールを定義。
- ボットに電話開始。 提供電話番号でClawdbotに電話、またはボットトリガーの「call me」フロー使用。
- 通話文字起こしとボット応答を確認。 ボットは通話イベント(発信者テキスト含む)を受け、テキスト応答を音声で発信者に返信。
ユースケース
- DevOps / インシデント対応通話: 発信者のコマンドをアクションに変換(例:「最新安定リリースにロールバックしチームに通知」)し、同じ通話で結果を読み上げ。
- パーソナルアシスタントのリマインダー・情報検索: 時間ベースや個人データ(例:カレンダーや睡眠スコア読み上げ)を依頼し、音声サマリーを受信。
- ショッピング・決済支援: ボットに電話し、食料品注文にアイテム追加、合計や配送時間を確認。
- スマートホーム制御: ボットにサーモスタット設定、照明ON/OFF、ドアロックを依頼;確認応答を返信。
- 複数チャットツールにまたがるチームワークフロー: ClawdTalkなし(メッセージが複数アプリに散在)と、単一通話ワークフロー(構造化応答提供)を対比。
FAQ
ClawdTalkはボットに何を追加する? ClawdTalkは音声通話機能—音声認識、音声合成、双方向電話通話—を追加し、ボットは基盤テキスト処理を継続。
ボットを公開インターネットに公開する必要は? 永続的なアウトバウンドWebSocket接続を使用し、ボットをプライベートに保ち公開ゲートウェイ不要。
通話を許可ユーザー限定にできる? はい。ClawdTalkはPIN保護をサポートし、サーバー側で必要PINなし通話を拒否。
発信者に文字起こしは提供される? 通話フローは文字起こし読み上げとボット入力使用;プラン詳細で「full transcripts」を参照。
自分の電話番号を使える? 価格セクションで「order your own number」と記載、プランにより利用可否変動。
代替案
- テキストのみのボットフレームワーク(電話統合なし): 主な目的がチャットベースの自動化(例: Slack/Telegramスタイルのボット)の場合、テキストのみのプラットフォームは電話機能を避け、メッセージ駆動のワークフローに集中します。
- 通話/SIP-to-webhook音声ゲートウェイ: 専用の「ボット音声レイヤー」の代わりに、チームは着信/発信通話をwebhookやアプリケーションサーバーにルーティングし、文字起こしとTTSを自前で実装できます。
- 音声認識 + 音声合成APIと電話サービスの組み合わせ: 別のアプローチとして、別々のSTT/TTSと電話プロバイダーを使用してカスタム電話アプリを構築し、柔軟性を得るものの統合作業が増えます。
- 統合型コンタクトセンター音声自動化: より広範なコールセンター機能(ルーティング、レポーティング、エージェント支援)を求める組織向けに、コンタクトセンター自動化ツールが開発者向け「ボット音声」統合を超えた音声ワークフローを提供します。
代替品
Lemon
Lemonは音声コマンドをタスクに変換するAIエージェント。メッセージ管理、リサーチ、仕事の委任をアプリ切り替えなしで実行できます。
OpenAI Realtime API
OpenAI Realtime APIで低遅延なマルチモーダル音声・リアルタイム体験を構築。ブラウザ音声エージェントやリアルタイム文字起こしにも対応。
MiniCPM-o 4.5
MiniCPM-o 4.5は、ビジョン、音声、全二重ライブストリーミングに対応した高性能なマルチモーダルAIモデルであり、先進的な視覚理解、音声合成、リアルタイムのインタラクティブ機能をコンパクトな9Bパラメータアーキテクチャで提供します。
PXZ AI
画像、動画、音声、ライティング、チャットのツールを統合したオールインワンAIプラットフォームで、創造性とコラボレーションを高めます。
Gemma AI
Gemma AIは、重要なタスク、予定、締め切りを絶対に忘れないように、パーソナライズされたインテリジェントな音声リマインダーで直接電話をかけてくるスマートアプリケーションです。
CAMB.AI
CAMB.AIで1つのライブ配信を多言語に。リアルタイムAI音声吹替でYouTube / Twitch / Xなどへ多言語放送可能。