xAI 提供 Grok Speech to Text 與 Text to Speech API,支援低延遲 REST/WebSocket、25+ 語言、雙人聲分離與 TTS 語音標籤等功能。
Gemini 3.1 Flash TTS 是 Google 文字轉語音模型,可產生更自然有表情的 AI 語音,支援 70+ 語言與音訊標籤控制,並含 SynthID 水印。
ElevenLabs Guardrails 2.0 提供可設定的安全與行為控管,協助 ElevenAgents 指引語音 AI 回覆並阻擋不安全或不合規輸出。
HeyGen 提供基於 API 的平台,支援影片生成、翻譯與 lipsync(含頭像與 TTS 模型),適合規模化製作流程。
Lightning TTS v3 是 Smallest.ai 最小延遲文字轉語音 API,支援多語言語音與聲音複製,適用語音代理與製作音訊。註冊送 $10 免費額度。
Voxtral TTS 是 Mistral AI 的多語言文字轉語音模型,支援低延遲、自然語音,並可在語音代理流程中快速調整說話者聲音。
Gemini 3.1 Flash Live 是 Google 的即時語音音訊模型,讓 Google 產品中的語音互動更自然、可靠;支援開發 API 與 Search Live / Gemini Live。
把任何文章變成播客單集:貼上文章連結在你的播客 App 收聽,或訂閱依主題整理的每日內容供你每天收聽。
Voizematic AI 語音助理軟體,支援建置與部署電話自動化:無限來電/外呼、Google 行事曆預約與 25+ 語言自動追蹤。
Clipchamp AI Voice Over Generator 線上文字轉語音(TTS),輸入腳本即可生成逼真旁白音軌,支援多語言、語速與語氣情感調整。
Maestra 是 AI 媒體翻譯平台,可生成逐字稿、字幕與多語配音(含即時翻譯與現場字幕)以本地化影片與音訊。
Inworld AI 提供即時 TTS、STT 與即時語音對語音 API,並搭配 Router 跨多個 LLM 供應商路由與故障切換。
Fliki 可將文字、想法、PPT、部落格或產品網址轉成 AI 影片與旁白,支援多語與 AI 角色。免費開始,無需信用卡。
WikiTrip 是 iPhone 位置導向的旅遊音訊導覽,會用 AI 語音朗讀附近 Wikipedia 文章,適合邊走邊聽(免手動點選)。
Synthesys.io 是 AI 內容套件,可生成真人感頭像影片並搭配旁白,支援影片配音翻譯多語言,亦可製作行銷用對應影像。
把單一直播轉成多語言同步廣播,支援 YouTube、Twitch、X 等;即時 AI 音訊配音,讓觀眾聽到翻譯解說。
LOVO 是 AI 語音生成與文字轉語音工具,可在 100+ 語言打造逼真配音;並提供線上影片編輯與字幕同步。
Herodot AI 提供全球 AI 語音導覽與自助行程:拍照解鎖音訊故事,並用地圖導引你在城市、博物館與文化景點探索。
TADA (Text-Acoustic Dual Alignment) 為 Hume AI 的開源文字轉語音模型,實現文字與音訊一對一同步,提升語音生成速度與可靠性。
Ondoku 文字轉語音(TTS)工具:貼上文字選擇語音即可播放,並支援下載 .mp3;提供多語言與多種語音選項。