Grok Speech to Text and Text to Speech APIs

什麼是 Grok Speech to Text (STT) 和 Text to Speech (TTS)？

Grok Speech to Text (STT) 和 Grok Text to Speech (TTS) 是 xAI 提供的獨立音訊 API，用於將語音轉換為文字以及文字轉換為語音。它們設計讓開發者能使用 REST 和 WebSocket 端點，為自家應用程式新增語音功能。

Grok STT 的目標是產生精確的逐字稿，並提供結構化輸出選項。Grok TTS 則專注於將文字轉為自然、富有表現力的語音，並透過語音標籤精細控制韻律。

有哪些端點可用於轉錄和語音生成？
Grok STT 和 Grok TTS 皆提供 REST 端點用於批次式請求，以及 WebSocket 端點用於低延遲或即時使用。

Grok STT 是否支援說話者辨識？
是的。API 包含說話者分離和單字級說話者 ID，適用於預錄和即時串流音訊。

轉錄是否提供格式化或結構化輸出？
是的。啟用格式化後，Grok STT 會套用反向文字正規化，將口語轉換為結構化輸出，例如數字、日期和貨幣。

Grok STT 支援多少語言？
頁面指出支援 25+ 語言，且可無縫切換語言。

如何控制 TTS 呈現風格？
Grok TTS 提供語音標籤（例如 [laugh]、[sigh]、[whisper]、、和），可加入文字中控制韻律和情緒。

語音轉文字 API（一般類別）：其他 STT 提供商提供 REST/WebSocket 轉錄，支援雙人聲分離與標點/格式化等選項。依據延遲、雙人聲分離品質，以及反向文字正規化處理方式進行比較。
支援標記/標籤的文字轉語音 API（一般類別）：許多 TTS API 支援類似 SSML 或自訂標記來影響節奏。比較標記表達力、支援控制項，以及 REST 與即時 WebSocket 生成的需求。
建置自訂音訊管線（一般類別）：有些團隊自行組裝 ASR 與格式化元件（獨立轉錄 + 正規化）。這可能增加整合複雜度，但能對每個步驟提供更多控制。
對話式語音平台 vs 獨立 API：取代獨立 STT/TTS 端點，您可採用端到端語音代理平台。這通常以獨立 API 的彈性，換取更整合的工作流程。