AssemblyAI Voice Agent API
AssemblyAI Voice Agent APIで音声をストリーミング入力し、音声出力をリアルタイム取得。逐語のどもり/音声タグ/話者役/コードスイッチ対応。
AssemblyAI Voice Agent APIとは?
AssemblyAI Voice Agent APIは、アプリケーションに音声をストリーミング入力し、リアルタイムで音声関連出力を取得できる音声エージェント構築のためのAPIです。このページでは、音声体験にタスク完了機能と音声理解を追加する方法として位置づけ、音声処理の主要部分を処理することで開発者がエージェントの製品ロジックに集中できるようにしています。
付属の例では、APIが異なるプロンプトスタイルでトランスクリプトを生成可能(例: 臨床履歴評価の詳細捕捉、会話分析の適合性、固有名詞の扱い)で、オーディオタグ、逐語のどもりデータ、話者役ラベリングなどのリッチなトランスクリプト構造を返すよう設定できます。
主な機能
- リアルタイム音声ストリーミング(入力→出力): 「音声をストリーミング入力し、音声を取得」向けに設計され、インタラクション中にエージェントが応答する音声エージェントワークフローをサポート。
- タスク重要エンティティの正確なトランスクリプション: 例テキストでメール、電話番号、注文ID、名前などの項目を正しく扱い、タスク完了に必要なものを強調。
- トランスクリプト向けコンテキスト認識プロンプト: トランスクリプト生成方法を変えるプロンプトをサポート(例: 臨床履歴評価で薬剤名と用量を正確に捕捉)。
- トランスクリプト詳細の制御(逐語、どもり、キーターム): 例でフィラー、繰り返し、再開、吃音、非公式発話を含むどもりのオプションとキーターム要求を示す。
- オーディオタグ付けとイベントラベリング: 「非音声オーディオイベント」出力を示し、「beep」などのタグ追加例で音と発話を区別。
- トランスクリプト内の話者役: 各話者ターンに役をラベリング(例: [Speaker:NURSE] / **[Speaker:PATIENT]**形式)。
- 言語検出とコードスイッチ保存: 英語/スペイン語コードスイッチを「as-is」で保存する例と言語検出を示す。
AssemblyAI Voice Agent APIの使い方
- APIキーの取得: ページに「Get your API Key」コールアウトあり。
- ライブVoice Agent APIデモを試す: 提供の「Try the Voice Agent API live」サポートエージェントでリアルタイム動作を体験。
- ストリーム音声中心に音声エージェントを構築: アプリケーションにAPIを統合し、通話中にエージェントが音声入力を送信しトランスクリプション/出力を取得。
- プロンプトと構造化リクエストでトランスクリプション出力を調整: タスクに応じてトランスクリプト詳細レベルを選択(例: 逐語どもり、オーディオタグ、話者役ラベリング、言語/コードスイッチ処理)。
ユースケース
- 臨床受付や臨床履歴評価サポート: トランスクリプト出力を薬剤名・用量捕捉とどもりデータ(フィラー、繰り返し、再開、吃音、非公式発話)を含むよう設定し、より意味ある評価を。
- 会話分析トランスクリプト: 「会話分析に適した」トランスクリプトを生成、非音声イベント(例: beep)のタグをオプション追加、どもりの包含を制御。
- 信頼性あるエンティティ捕捉が必要な自動サポートライン: 電話番号、注文ID、名前などの運用詳細でトランスクリプション精度を使い、代理店が一般顧客リクエストを完了。
- 役割ベース通話サマリー: 各話者ターンを役割(例: 看護師/患者)でラベリングし、誰が何を言ったかに依存するワークフローの後処理を容易に。
- バイリンガル音声インタラクション: 英語とスペイン語間の自然コードスイッチを保存し、トランスクリプトが単一言語を強制せず発話を反映。
FAQ
ライブデモのエージェントはAPIで構築できるものと同じですか?
はい。ページに記載の通り、ライブデモで表示されるサポートエージェントはVoice Agent APIで構築されており、あなたがデプロイ可能な同一のものです。
デモエージェントは他の製品のサポートも提供しますか?
いいえ。ページによると、このエージェントはAssemblyAI製品のみの顧客サポートを提供します。
エージェントはどもりを含むトランスクリプトを返せますか?
例から、トランスクリプト生成でフィラー、繰り返し、再開、吃音、非公式な話し言葉などのどもり情報を含むようプロンプト可能です。
トランスクリプトに非音声オーディオタグを含められますか?
はい。例で「audio tags」が示され、トランスクリプト生成中にビープ音がタグとして含まれています。
複数言語やコードスイッチングに対応しますか?
ページに英語とスペイン語間の自然なコードスイッチングを検知・保持する例が記載されています。
代替案
- 句読点/話者分離が設定可能な音声認識API: 主にトランスクリプションが必要なら、話者分離付き標準音声認識APIが代替可能。ただし、ここで示されたトランスクリプトプロンプト制御やオーディオタグ挙動を再現するには追加作業が必要です。
- 汎用ボイスエージェントフレームワーク(LLMオーケストレーション+音声モデル): ストリーミングASR/TTSとLLMを組み合わせたボイスエージェントフレームワークも使用可能。プロンプト駆動のトランスクリプト整形や構造化出力の負担が自社パイプラインに移ります。
- カスタマーサポートIVR/ボイスプラットフォーム: サポートライン自動化にはIVR形式プラットフォームが一般的な通話フローを処理可能ですが、トランスクリプトレベルの制御(例:逐語どもり、オーディオタグ、話者役ラベル)は下流分析向けに同等とは限りません。
- 話者ラベル付きミーティング/通話トランスクリプション ツール: これらは話者帰属付きトランスクリプトを生成。API例で示されたどもり捕捉や設定可能なトランスクリプト挙動の同等性を基準に比較してください。
代替品
OpenAI Realtime API
OpenAI Realtime APIで低遅延なマルチモーダル音声・リアルタイム体験を構築。ブラウザ音声エージェントやリアルタイム文字起こしにも対応。
Lemon
Lemonは音声コマンドをタスクに変換するAIエージェント。メッセージ管理、リサーチ、仕事の委任をアプリ切り替えなしで実行できます。
Speech to Text Converter Online
オーディオおよびビデオファイルを45以上の言語で正確なテキストトランスクリプトに変換する無料のオンラインツールです。多数のファイル形式をサポートしており、ダウンロードやサインアップは不要です。
Pewbeam
Pewbeamは説教をリアルタイムで聞き取り、聖書箇所を瞬時に検出して画面表示。入力や操作なしで投影をサポート。
Dictato
DictatoはmacOSのオフライン音声入力アプリ。Whisper/Parakeet/Appleエンジンに対応し、クラウドなしでその場で文字起こし。
PXZ AI
画像、動画、音声、ライティング、チャットのツールを統合したオールインワンAIプラットフォームで、創造性とコラボレーションを高めます。