什麼是 Grok Speech to Text (STT) 和 Text to Speech (TTS)?
Grok Speech to Text (STT) 和 Grok Text to Speech (TTS) 是 xAI 提供的獨立音訊 API,用於將語音轉換為文字以及文字轉換為語音。它們設計讓開發者能使用 REST 和 WebSocket 端點,為自家應用程式新增語音功能。
Grok STT 的目標是產生精確的逐字稿,並提供結構化輸出選項。Grok TTS 則專注於將文字轉為自然、富有表現力的語音,並透過語音標籤精細控制韻律。
主要功能
- 高準確度、低延遲轉錄:使用 REST API 從大型音訊檔案產生逐字稿,並使用 WebSocket API 進行即時語音轉錄。
- 單字級時間戳記與說話者分離:包含單字級說話者 ID,透過分離技術在預錄和串流音訊中分離並辨識說話者。
- 多聲道支援:使用相同 API 轉錄多聲道音訊檔案,並處理說話者分離。
- 反向文字正規化(啟用格式化時):將口語轉換為結構化、正確格式的輸出,例如數字、日期和貨幣(例如將「我的電話號碼是 …」轉為預期格式)。
- 多語言語音辨識:支援 25+ 語言,並可無縫切換語言。
- 用於富有表現力的 TTS 語音標籤:使用內嵌和包圍式語音標籤,如 [laugh]、[sigh]、[whisper]、
、 和 ,來控制語音呈現。 - TTS 的 REST 和 WebSocket 生成:使用 REST 進行批次式語音生成,或使用 WebSocket 進行即時語音輸出。
如何使用 Grok Speech to Text (STT) 和 Text to Speech (TTS)
- 從 xAI API 主控台開始,使用提供的 STT 或 TTS 端點。
- 進行轉錄時,選擇 REST 來處理大型音訊檔案,或選擇 WebSocket 以獲得低延遲即時轉錄。
- 進行 TTS 時,透過 REST 提交文字生成語音,或使用 WebSocket 以獲得即時語音輸出。
- 若需結構化逐字稿,請啟用格式化以使用反向文字正規化;若需 TTS 表現力,請新增語音標籤控制韻律。
使用情境
- 語音代理與互動助理:即時轉錄使用者語音,並將結果文字輸入對話或工作流程邏輯。
- 會議或支援通話的即時轉錄:使用說話者分離和單字級說話者 ID,將對話片段歸屬至正確說話者。
- 無障礙工具:將口語轉換為正確結構化文字(包含數字、日期和貨幣),並選擇性支援多語言。
- 播客與音訊製作工作流程:從長錄音產生逐字稿(批次轉錄),並使用 TTS 將腳本或結構化文字轉回音訊。
- 互動音訊體驗:結合受控 TTS(語音標籤用於強調、停頓和表現提示)與轉錄,支援雙向語音互動。
常見問題
有哪些端點可用於轉錄和語音生成?
Grok STT 和 Grok TTS 皆提供 REST 端點用於批次式請求,以及 WebSocket 端點用於低延遲或即時使用。
Grok STT 是否支援說話者辨識?
是的。API 包含說話者分離和單字級說話者 ID,適用於預錄和即時串流音訊。
轉錄是否提供格式化或結構化輸出?
是的。啟用格式化後,Grok STT 會套用反向文字正規化,將口語轉換為結構化輸出,例如數字、日期和貨幣。
Grok STT 支援多少語言?
頁面指出支援 25+ 語言,且可無縫切換語言。
如何控制 TTS 呈現風格?
Grok TTS 提供語音標籤(例如 [laugh]、[sigh]、[whisper]、
替代方案
- 語音轉文字 API(一般類別):其他 STT 提供商提供 REST/WebSocket 轉錄,支援雙人聲分離與標點/格式化等選項。依據延遲、雙人聲分離品質,以及反向文字正規化處理方式進行比較。
- 支援標記/標籤的文字轉語音 API(一般類別):許多 TTS API 支援類似 SSML 或自訂標記來影響節奏。比較標記表達力、支援控制項,以及 REST 與即時 WebSocket 生成的需求。
- 建置自訂音訊管線(一般類別):有些團隊自行組裝 ASR 與格式化元件(獨立轉錄 + 正規化)。這可能增加整合複雜度,但能對每個步驟提供更多控制。
- 對話式語音平台 vs 獨立 API:取代獨立 STT/TTS 端點,您可採用端到端語音代理平台。這通常以獨立 API 的彈性,換取更整合的工作流程。
替代品
Sanota
Sanota 將你的語音轉成清晰又好看的文字,輕鬆記下回憶與靈感,免從空白頁開始;可免費開始。
Speech to Text Converter Online
一個免費的線上工具,可將音訊和視訊檔案轉換為超過45種語言的準確文字記錄。它支援多種檔案格式,無需下載或註冊。
MiniCPM-o 4.5
MiniCPM-o 4.5 是一款功能強大的多模態人工智慧模型,專為視覺、語音和全雙工實時串流而設計,提供先進的視覺理解、語音合成和即時互動能力,架構緊湊,擁有9B參數。它融合多個先進的AI組件,如 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B,實現多任務的最先進性能。其核心目標是讓強大的多模態AI技術更易於普及,提供一個多功能、高效且易於使用的模型,適用於研究、開發和實際應用部署。
Dictato
Dictato 是 macOS 離線語音轉文字工具,將轉寫即時插入你正在輸入的任何 App;支援 Whisper、Parakeet 與 Apple 引擎。
CAMB.AI
把單一直播轉成多語言同步廣播,支援 YouTube、Twitch、X 等;即時 AI 音訊配音,讓觀眾聽到翻譯解說。
Tavus
Tavus 提供用於即時、面對面互動的 AI,能看、聽並回應;也透過 API 支援可部署影片代理、數位分身與 AI 夥伴。