Grok Speech to Text and Text to Speech APIs

xAIのGrok Speech to Text・Text to Speech APIで音声/テキスト変換。低遅延REST/WebSocket、話者分離やTTS音声タグ等に対応。

Grok Speech to Text (STT)およびText to Speech (TTS)とは？

Grok Speech to Text (STT)およびGrok Text to Speech (TTS)は、xAIの独立した音声APIで、音声をテキストに、テキストを音声に変換します。開発者がRESTおよびWebSocketエンドポイントを使用して、自社アプリケーションに音声機能を追加できるように設計されています。

Grok STTの目標は、構造化された出力オプション付きで正確なトランスクリプトを生成することです。Grok TTSは、テキストを自然で表現豊かな音声に変換し、音声タグによる細かな抑揚制御に重点を置いています。

主な機能

高精度・低遅延転写：REST APIで大容量音声ファイルからトランスクリプトを生成し、WebSocket APIでリアルタイム音声転写。
単語レベルタイムスタンプと話者分離：事前録音およびストリーミング音声で話者を分離・識別する単語レベルの話者IDを含む。
マルチチャンネル対応：同一APIでマルチチャンネル音声ファイルの話者分離を処理。
逆テキスト正規化（フォーマット有効時）：数字、日付、通貨などを構造化された適切な形式に変換（例：「私の電話番号は…」を期待されるフォーマットに）。
多言語音声認識：25言語以上をサポートし、言語をシームレスに切り替え。
表現豊かなTTSのための音声タグ：[laugh]、[sigh]、[whisper]、、、などのインライン/ラップ音声タグで発声制御。
TTS用のRESTおよびWebSocket生成：RESTでバッチ式生成、WebSocketでリアルタイム音声出力。

Grok Speech to Text (STT)およびText to Speech (TTS)の使い方

xAI APIコンソールから始め、STTまたはTTSの提供エンドポイントを使用。
転写では、大容量音声ファイルにREST、リアルタイム低遅延転写にWebSocketを選択。
TTSでは、RESTでテキストを送信して音声を生成、またはリアルタイム出力にWebSocketを使用。
構造化トランスクリプトが必要ならフォーマットを有効化して逆テキスト正規化を使用。TTSの表現力には抑揚制御のための音声タグを追加。

ユースケース

音声エージェントおよび対話型アシスタント：ユーザーの音声をリアルタイム転写し、結果テキストを対話やワークフローロジックに投入。
ミーティングやサポート通話のリアルタイム転写：話者分離と単語レベル話者IDで会話部分を正しい話者に帰属。
アクセシビリティツール：音声を構造化テキスト（数字、日付、通貨含む）に変換、多言語オプション対応。
ポッドキャストおよび音声制作ワークフロー：長時間録音からトランスクリプト生成（バッチ転写）、スクリプトや構造化テキストをTTSで音声化。
インタラクティブ音声体験：制御TTS（強調、ポーズ、表現キュー用の音声タグ）と転写を組み合わせ、双方向音声インタラクションをサポート。

FAQ

転写および音声生成で利用可能なエンドポイントは？
Grok STTおよびGrok TTSは、バッチ式リクエスト用のRESTエンドポイントと、低遅延/リアルタイム用途のWebSocketエンドポイントを両方提供。

Grok STTは話者識別をサポート？
はい。APIは事前録音およびリアルタイムストリーミング音声で話者分離と単語レベル話者IDを含む。

転写でフォーマットや構造化出力は利用可能？
はい。フォーマット有効時、Grok STTは逆テキスト正規化を適用し、数字、日付、通貨などの音声を構造化出力に変換。

Grok STTは何言語サポート？
25言語以上をサポートし、言語切り替えが途切れず可能と記載。

TTSの発声スタイルをどう制御？
Grok TTSは、[laugh]、[sigh]、[whisper]、、、などの音声タグをテキストに含めて抑揚と感情を制御。

代替案

Speech-to-text API（一般カテゴリ）：他のSTTプロバイダはREST/WebSocket転写を提供し、話者分離や句読点/フォーマットなどのオプションを備える。遅延、話者分離品質、逆テキスト正規化の処理方法で比較。
マークアップ/タグ対応Text-to-speech API（一般カテゴリ）：多くのTTS APIがSSML風やカスタムタグをサポートし、抑揚に影響。タグの表現力、対応コントロール、REST対リアルタイムWebSocket生成の必要性を比較。
カスタムオーディオパイプラインの構築（一般カテゴリ）：一部のチームはASRとフォーマットコンポーネントを独自組み立て（転写＋正規化を分離）。統合複雑度が増すが、各ステップの制御性が高い。
会話型ボイスプラットフォーム vs 単独APIの使用：単独STT/TTSエンドポイントの代わりに、エンドツーエンドのボイスエージェントプラットフォームを採用。単独APIの柔軟性を統合ワークフローに交換。