AssemblyAI Voice Agent API

AssemblyAI Voice Agent APIとは？

AssemblyAI Voice Agent APIは、アプリケーションに音声をストリーミング入力し、リアルタイムで音声関連出力を取得できる音声エージェント構築のためのAPIです。このページでは、音声体験にタスク完了機能と音声理解を追加する方法として位置づけ、音声処理の主要部分を処理することで開発者がエージェントの製品ロジックに集中できるようにしています。

付属の例では、APIが異なるプロンプトスタイルでトランスクリプトを生成可能（例: 臨床履歴評価の詳細捕捉、会話分析の適合性、固有名詞の扱い）で、オーディオタグ、逐語のどもりデータ、話者役ラベリングなどのリッチなトランスクリプト構造を返すよう設定できます。

主な機能

リアルタイム音声ストリーミング（入力→出力）: 「音声をストリーミング入力し、音声を取得」向けに設計され、インタラクション中にエージェントが応答する音声エージェントワークフローをサポート。
タスク重要エンティティの正確なトランスクリプション: 例テキストでメール、電話番号、注文ID、名前などの項目を正しく扱い、タスク完了に必要なものを強調。
トランスクリプト向けコンテキスト認識プロンプト: トランスクリプト生成方法を変えるプロンプトをサポート（例: 臨床履歴評価で薬剤名と用量を正確に捕捉）。
トランスクリプト詳細の制御（逐語、どもり、キーターム）: 例でフィラー、繰り返し、再開、吃音、非公式発話を含むどもりのオプションとキーターム要求を示す。
オーディオタグ付けとイベントラベリング: 「非音声オーディオイベント」出力を示し、「beep」などのタグ追加例で音と発話を区別。
トランスクリプト内の話者役: 各話者ターンに役をラベリング（例: [Speaker:NURSE] / **[Speaker:PATIENT]**形式）。
言語検出とコードスイッチ保存: 英語/スペイン語コードスイッチを「as-is」で保存する例と言語検出を示す。

AssemblyAI Voice Agent APIの使い方

APIキーの取得: ページに「Get your API Key」コールアウトあり。
ライブVoice Agent APIデモを試す: 提供の「Try the Voice Agent API live」サポートエージェントでリアルタイム動作を体験。
ストリーム音声中心に音声エージェントを構築: アプリケーションにAPIを統合し、通話中にエージェントが音声入力を送信しトランスクリプション/出力を取得。
プロンプトと構造化リクエストでトランスクリプション出力を調整: タスクに応じてトランスクリプト詳細レベルを選択（例: 逐語どもり、オーディオタグ、話者役ラベリング、言語/コードスイッチ処理）。

ユースケース

臨床受付や臨床履歴評価サポート: トランスクリプト出力を薬剤名・用量捕捉とどもりデータ（フィラー、繰り返し、再開、吃音、非公式発話）を含むよう設定し、より意味ある評価を。
会話分析トランスクリプト: 「会話分析に適した」トランスクリプトを生成、非音声イベント（例: beep）のタグをオプション追加、どもりの包含を制御。
信頼性あるエンティティ捕捉が必要な自動サポートライン: 電話番号、注文ID、名前などの運用詳細でトランスクリプション精度を使い、代理店が一般顧客リクエストを完了。
役割ベース通話サマリー: 各話者ターンを役割（例: 看護師/患者）でラベリングし、誰が何を言ったかに依存するワークフローの後処理を容易に。
バイリンガル音声インタラクション: 英語とスペイン語間の自然コードスイッチを保存し、トランスクリプトが単一言語を強制せず発話を反映。

FAQ

ライブデモのエージェントはAPIで構築できるものと同じですか？

はい。ページに記載の通り、ライブデモで表示されるサポートエージェントはVoice Agent APIで構築されており、あなたがデプロイ可能な同一のものです。

デモエージェントは他の製品のサポートも提供しますか？

いいえ。ページによると、このエージェントはAssemblyAI製品のみの顧客サポートを提供します。

エージェントはどもりを含むトランスクリプトを返せますか？

例から、トランスクリプト生成でフィラー、繰り返し、再開、吃音、非公式な話し言葉などのどもり情報を含むようプロンプト可能です。

トランスクリプトに非音声オーディオタグを含められますか？

はい。例で「audio tags」が示され、トランスクリプト生成中にビープ音がタグとして含まれています。

複数言語やコードスイッチングに対応しますか？

ページに英語とスペイン語間の自然なコードスイッチングを検知・保持する例が記載されています。

代替案

句読点/話者分離が設定可能な音声認識API： 主にトランスクリプションが必要なら、話者分離付き標準音声認識APIが代替可能。ただし、ここで示されたトランスクリプトプロンプト制御やオーディオタグ挙動を再現するには追加作業が必要です。
汎用ボイスエージェントフレームワーク（LLMオーケストレーション＋音声モデル）： ストリーミングASR/TTSとLLMを組み合わせたボイスエージェントフレームワークも使用可能。プロンプト駆動のトランスクリプト整形や構造化出力の負担が自社パイプラインに移ります。
カスタマーサポートIVR/ボイスプラットフォーム： サポートライン自動化にはIVR形式プラットフォームが一般的な通話フローを処理可能ですが、トランスクリプトレベルの制御（例：逐語どもり、オーディオタグ、話者役ラベル）は下流分析向けに同等とは限りません。
話者ラベル付きミーティング/通話トランスクリプションツール： これらは話者帰属付きトランスクリプトを生成。API例で示されたどもり捕捉や設定可能なトランスクリプト挙動の同等性を基準に比較してください。

AssemblyAI Voice Agent API

AssemblyAI Voice Agent APIとは？

主な機能

AssemblyAI Voice Agent APIの使い方

ユースケース

FAQ

ライブデモのエージェントはAPIで構築できるものと同じですか？

デモエージェントは他の製品のサポートも提供しますか？

エージェントはどもりを含むトランスクリプトを返せますか？

トランスクリプトに非音声オーディオタグを含められますか？

複数言語やコードスイッチングに対応しますか？

代替案

代替品

OpenAI Realtime API

Lemon

Speech to Text Converter Online

Pewbeam

Dictato

PXZ AI