UStackUStack
AssemblyAI icon

AssemblyAI

AssemblyAIは音声を文字起こしし、音声データからインサイトを抽出。ストリーミング対応でボイスエージェント向けにリアルタイム処理。

AssemblyAI

AssemblyAIとは?

AssemblyAIは、音声オーディオをテキストに変換し、音声データからインサイトを抽出するためのSpeech AIモデルを提供します。ウェブサイトでは、ストリーミング音声認識機能と、単なるテキスト起こしを超えたモデルプロンプト/設定を強調しており、つっかえ、話者役割、重要用語、オーディオタグ、コードスイッチングなどを捕捉します。

この製品は、ボイスエージェントを含む音声アプリケーションを構築するチーム向けに位置づけられています。サイトでは、リアルタイム文字起こしやLiveKit SDKなどのドキュメントリソースを参照し、開発者が音声ワークフローに音声処理を統合するのを支援します。

主な機能

  • リアルタイムボイスエージェント向けストリーミング音声認識: 音声が発生するたびに連続して文字起こしするよう設計され、バッチ処理のみではなくボイスエージェントワークフローをサポート。
  • コンテキスト認識プロンプト: プロンプトを調整して薬剤投与量の正確性などの詳細を保持し、特定の起こし要素(例: フィラー、繰り返し、再開、吃音、非公式な話し方)を含める。
  • つっかえ捕捉(話者の「ためらい」や中断): 例では「um」「uh」などのフィラー、繰り返し、再開、吃音を保持した起こしを生成し、会話や臨床分析に使用。
  • 非音声イベントのオーディオタグ付け: プロンプトでシステム音(例: 「beep」)などのイベントタグを要求し、重要な非言語・シグナル情報を保持。
  • 話者役割ラベリング: プロンプトで各話者ターンに役割(例: 「NURSE」「PATIENT」)をラベル付けし、多人数会話の構造化。
  • 重要用語抽出/綴り制御: サイトの例では、固有名詞(例: 「Kelly Byrne-Donoghue」)のような重要用語をプロンプトで処理。
  • 言語検出とコードスイッチング対応: 例では英語とスペイン語の切り替え時に言語をそのまま保持。

AssemblyAIの使い方

  1. 音声ワークフローの選択: リアルタイム文字起こしやボイスエージェントフローなど(サイトではリアルタイム文字起こしドキュメントとLiveKit SDKを参照)。
  2. 起こし出力の選択: プレーンテキスト、またはつっかえ、非音声オーディオタグ、話者役割、重要用語、コードスイッチングを含む構造化出力。
  3. プロンプト/設定例の使用: ユースケースに適した起こし形式と詳細度を要求(例: 薬剤中心の臨床履歴 vs. 会話分析)。

ユースケース

  • 詳細な話し方を含むボイスエージェント会話起こし: フィラー、繰り返し、再開、吃音を含む起こしを生成し、後続の会話分析に。
  • 薬剤詳細を保持した臨床履歴スタイルの起こし: 薬剤名と投与量を正確に捕捉し、つっかえを意味あるデータとして保持。
  • オーディオイベントタグ付き通話/IVR起こし: システムプロンプトやbeepなどの非音声イベントタグを含め、オーディオのシグナルを反映。
  • 役割付与付き多人数インタビュー: 各ターンを話者役割(例: 看護師 vs. 患者)でラベル付けし、レビューやドキュメント化のための構造化。
  • 文中で言語切り替えするバイリンガル会話: 英語/スペイン語のコードスイッチング時に話し言葉パターンを保持し、単一言語への正規化を避ける。

FAQ

  • AssemblyAIはボイスエージェント向けリアルタイム文字起こしをサポート? サイトではボイスエージェントワークフロー向けストリーミング音声認識を強調し、「real-time transcription」リソースを参照。

  • 起こしはプレーンテキストを超えた内容を含む? はい。例ではつっかえ、非音声オーディオタグ、固有名詞/重要用語処理、話者役割ラベリング、コードスイッチング保持をプロンプトで要求。

  • 起こしでのつっかえ処理は? ウェブサイトの例では、プロンプトでフィラー、繰り返し、再開、吃音を起こしに含めるよう指示。

  • 出力に話者役割を含められる? サイトの例では話者ターンを役割付き(例: 「Speaker [Nurse]」「Speaker [Patient]」)で要求。

  • 言語検出とコードスイッチングはサポート? サイトの例では言語検出を示し、自然な英語/スペイン語コードスイッチングを保持。

代替案

  • 他のクラウドプロバイダーのSpeech-to-text API: ストリーミング文字起こしや話者分離のような機能を提供しますが、disfluencies、オーディオイベントタグ、構造化されたプロンプト駆動出力の信頼性保存方法に差があります。
  • オープンソース音声認識ツールキット: セルフホスト文字起こしに有用ですが、AssemblyAIのサイトに示されたプロンプト駆動フォーマット(disfluencies、話者役割、code-switching保存)の再現に追加作業が必要です。
  • 組み込み文字起こし付きボイスエージェントプラットフォーム: 一部のプラットフォームはエージェントフレームワークに直接統合;トランスクリプトフォーマットの設定可能性と、同一のトランスクリプト要素(例: disfluenciesとタグ)のサポートを比較してください。
  • 汎用オーディオ-to-テキストパイプライン(バッチ文字起こしツール): 録音/バッチファイルに適しています;AssemblyAIで強調されるリアルタイム、ボイスエージェントユースケースには別ツールが必要になる場合があります。