speech-core 是一款 C++17 本機端語音代理流程引擎,支援 VAD、串流與批次語音轉文字、說話人分離及文字轉語音,協助開發者在 Linux、Windows、Android 與 Apple 相關工作流程中建立本地語音應用,且無需雲端推論。
Voiser.ai 是 AI 文字轉語音與配音生成工具,可將書面文字快速轉為口語音訊。支援多種聲音與語言,適合旁白、宣傳內容與多語言專案。
Podio:News Podcast Maker 是一款 AI 音訊 App,可將你關注的主題與新聞興趣轉成個人化每日 Podcast 串流,支援在 iPhone 和 iPad 免手操作收聽新聞、摘要與自訂主題節目。
Tico 是 Windows 的 AI 助理:聆聽你的語音問題,理解你螢幕內容,並用口述一步步指引你該點哪裡。
Yeta AI 將公開 YouTube 影片即時翻譯並配上 AI 聲音,支援 10+ 種語言;每月 15 分鐘免費,免信用卡起用。
Morph 將電子書與有聲書整合為同步閱讀體驗,支援同時閱讀/聆聽;並內建 Morph AI,提供章節級解釋與書籍問答。
FlowSpeech 是 AI 文字轉語音工具,可將腳本生成如真人般音訊,支援語境情緒與精準停頓控制,提供 30+ 種聲音、70+ 語言。
xAI 提供 Grok Speech to Text 與 Text to Speech API,支援低延遲 REST/WebSocket、25+ 語言、雙人聲分離與 TTS 語音標籤等功能。
Gemini 3.1 Flash TTS 是 Google 文字轉語音模型,可產生更自然有表情的 AI 語音,支援 70+ 語言與音訊標籤控制,並含 SynthID 水印。
ElevenLabs Guardrails 2.0 提供可設定的安全與行為控管,協助 ElevenAgents 指引語音 AI 回覆並阻擋不安全或不合規輸出。
HeyGen 提供基於 API 的平台,支援影片生成、翻譯與 lipsync(含頭像與 TTS 模型),適合規模化製作流程。
Lightning TTS v3 是 Smallest.ai 最小延遲文字轉語音 API,支援多語言語音與聲音複製,適用語音代理與製作音訊。註冊送 $10 免費額度。
Voxtral TTS 是 Mistral AI 的多語言文字轉語音模型,支援低延遲、自然語音,並可在語音代理流程中快速調整說話者聲音。
Gemini 3.1 Flash Live 是 Google 的即時語音音訊模型,讓 Google 產品中的語音互動更自然、可靠;支援開發 API 與 Search Live / Gemini Live。
把任何文章變成播客單集:貼上文章連結在你的播客 App 收聽,或訂閱依主題整理的每日內容供你每天收聽。
Voizematic AI 語音助理軟體,支援建置與部署電話自動化:無限來電/外呼、Google 行事曆預約與 25+ 語言自動追蹤。
Clipchamp AI Voice Over Generator 線上文字轉語音(TTS),輸入腳本即可生成逼真旁白音軌,支援多語言、語速與語氣情感調整。
Maestra 是 AI 媒體翻譯平台,可生成逐字稿、字幕與多語配音(含即時翻譯與現場字幕)以本地化影片與音訊。
Inworld AI 提供即時 TTS、STT 與即時語音對語音 API,並搭配 Router 跨多個 LLM 供應商路由與故障切換。
Fliki 可將文字、想法、PPT、部落格或產品網址轉成 AI 影片與旁白,支援多語與 AI 角色。免費開始,無需信用卡。