UStackUStack
Grok Speech to Text and Text to Speech APIs icon

Grok Speech to Text and Text to Speech APIs

xAI 提供 Grok Speech to Text 與 Text to Speech API,支援低延遲 REST/WebSocket、25+ 語言、雙人聲分離與 TTS 語音標籤等功能。

Grok Speech to Text and Text to Speech APIs

什麼是 Grok Speech to Text (STT) 和 Text to Speech (TTS)?

Grok Speech to Text (STT) 和 Grok Text to Speech (TTS) 是 xAI 提供的獨立音訊 API,用於將語音轉換為文字以及文字轉換為語音。它們設計讓開發者能使用 REST 和 WebSocket 端點,為自家應用程式新增語音功能。

Grok STT 的目標是產生精確的逐字稿,並提供結構化輸出選項。Grok TTS 則專注於將文字轉為自然、富有表現力的語音,並透過語音標籤精細控制韻律。

主要功能

  • 高準確度、低延遲轉錄:使用 REST API 從大型音訊檔案產生逐字稿,並使用 WebSocket API 進行即時語音轉錄。
  • 單字級時間戳記與說話者分離:包含單字級說話者 ID,透過分離技術在預錄和串流音訊中分離並辨識說話者。
  • 多聲道支援:使用相同 API 轉錄多聲道音訊檔案,並處理說話者分離。
  • 反向文字正規化(啟用格式化時):將口語轉換為結構化、正確格式的輸出,例如數字、日期和貨幣(例如將「我的電話號碼是 …」轉為預期格式)。
  • 多語言語音辨識:支援 25+ 語言,並可無縫切換語言。
  • 用於富有表現力的 TTS 語音標籤:使用內嵌和包圍式語音標籤,如 [laugh]、[sigh]、[whisper]、,來控制語音呈現。
  • TTS 的 REST 和 WebSocket 生成:使用 REST 進行批次式語音生成,或使用 WebSocket 進行即時語音輸出。

如何使用 Grok Speech to Text (STT) 和 Text to Speech (TTS)

  1. 從 xAI API 主控台開始,使用提供的 STT 或 TTS 端點。
  2. 進行轉錄時,選擇 REST 來處理大型音訊檔案,或選擇 WebSocket 以獲得低延遲即時轉錄。
  3. 進行 TTS 時,透過 REST 提交文字生成語音,或使用 WebSocket 以獲得即時語音輸出。
  4. 若需結構化逐字稿,請啟用格式化以使用反向文字正規化;若需 TTS 表現力,請新增語音標籤控制韻律。

使用情境

  • 語音代理與互動助理:即時轉錄使用者語音,並將結果文字輸入對話或工作流程邏輯。
  • 會議或支援通話的即時轉錄:使用說話者分離和單字級說話者 ID,將對話片段歸屬至正確說話者。
  • 無障礙工具:將口語轉換為正確結構化文字(包含數字、日期和貨幣),並選擇性支援多語言。
  • 播客與音訊製作工作流程:從長錄音產生逐字稿(批次轉錄),並使用 TTS 將腳本或結構化文字轉回音訊。
  • 互動音訊體驗:結合受控 TTS(語音標籤用於強調、停頓和表現提示)與轉錄,支援雙向語音互動。

常見問題

有哪些端點可用於轉錄和語音生成?
Grok STT 和 Grok TTS 皆提供 REST 端點用於批次式請求,以及 WebSocket 端點用於低延遲或即時使用。

Grok STT 是否支援說話者辨識?
是的。API 包含說話者分離和單字級說話者 ID,適用於預錄和即時串流音訊。

轉錄是否提供格式化或結構化輸出?
是的。啟用格式化後,Grok STT 會套用反向文字正規化,將口語轉換為結構化輸出,例如數字、日期和貨幣。

Grok STT 支援多少語言?
頁面指出支援 25+ 語言,且可無縫切換語言。

如何控制 TTS 呈現風格?
Grok TTS 提供語音標籤(例如 [laugh]、[sigh]、[whisper]、),可加入文字中控制韻律和情緒。

替代方案

  • 語音轉文字 API(一般類別):其他 STT 提供商提供 REST/WebSocket 轉錄,支援雙人聲分離與標點/格式化等選項。依據延遲、雙人聲分離品質,以及反向文字正規化處理方式進行比較。
  • 支援標記/標籤的文字轉語音 API(一般類別):許多 TTS API 支援類似 SSML 或自訂標記來影響節奏。比較標記表達力、支援控制項,以及 REST 與即時 WebSocket 生成的需求。
  • 建置自訂音訊管線(一般類別):有些團隊自行組裝 ASR 與格式化元件(獨立轉錄 + 正規化)。這可能增加整合複雜度,但能對每個步驟提供更多控制。
  • 對話式語音平台 vs 獨立 API:取代獨立 STT/TTS 端點,您可採用端到端語音代理平台。這通常以獨立 API 的彈性,換取更整合的工作流程。
Grok Speech to Text and Text to Speech APIs | UStack