富表現力的語音生成
產生聽起來自然的語音,並提供富表現力的控制,包括 sad、whispered 與 excited 等情緒標籤。
MAI-Voice-2 是 Microsoft AI 的文字轉語音模型,能為語音品質會影響使用者體驗的產品與服務生成自然且富表現力的語音。Microsoft 將其定位於助理、客服、有聲書、無障礙體驗,以及其他長篇或對品牌聲音敏感的語音工作流程。
此模型可在 Microsoft Foundry 中使用,並且也正整合至 VS Code 與 Dynamics 365 Contact Center。Microsoft 表示,它支援 15 種語言/地區、透過標籤進行情緒控制、可從短參考音訊進行 zero-shot 聲音提示,以及針對特定語言對的 code-switching,同時在較長的生成內容中維持說話者一致性。
產生聽起來自然的語音,並提供富表現力的控制,包括 sad、whispered 與 excited 等情緒標籤。
支援範圍從僅英文擴展到 15 種語言/地區,同時盡量保持相同的自然度與表現力。
使用 5–60 秒的參考音訊建立自訂聲音,無需重新訓練或微調。
在長篇輸出中維持說話者身分一致性,例如有聲書、Podcast 與演講。
支援特定語言對的 code-switching,例如 Hindi-English 與 Spanish-English。
包含同意控管機制,確保正式環境中只能合成已授權、經核准的聲音。
使用 MAI-Voice-2 為助理或客服產品提供品牌化且一致的聲音,讓其與使用者從產品中聽到的體驗相符。
為有聲書、Podcast 與演講等長篇音訊生成旁白,因為在長時間輸出中維持說話者一致性很重要。
為視障使用者或依賴語音輸出作為與軟體互動主要方式的人,建立無障礙語音介面。
為遊戲、AR/VR 或腳本化媒體建立角色聲音,並可控制情緒與表達風格。
利用短參考音訊在 Microsoft Foundry 中建立自訂聲音,適合希望擁有自家聲音、但不想訓練獨立模型的產品團隊。
MAI-Voice-2 可在 Microsoft Foundry 中使用,而 Microsoft 也表示它正整合至 VS Code 與 Dynamics 365 Contact Center。
此頁將 MAI-Voice-2 描述為一個文字轉語音模型,支援 15 種語言/地區、情緒標籤、從 5–60 秒參考音訊進行 zero-shot 聲音提示、特定語言對的 code-switching,以及長篇輸出中的穩定說話者一致性。
Microsoft 表示,可在 Microsoft Foundry 中使用短參考片段建立自訂聲音,且無須重新訓練或微調,但僅限已授權、經核准的聲音可在正式環境中合成。
發表頁列出支援的語言/地區,包括英文(美國)、英文(澳洲)、義大利文、法文、德文、印地語、西班牙文(西班牙)、西班牙文(墨西哥)、葡萄牙文(巴西)、葡萄牙文(葡萄牙)、韓文、中文(簡體)、土耳其文、俄文、泰文、荷蘭文、羅馬尼亞文與匈牙利文。
Wallie 是開源 AI streamer,可觀看你的螢幕、聆聽聊天室,並以可設定的人設即時生成直播評論;支援本機執行與自有金鑰,適合無真人出鏡、自治直播與即時互動。
BeFreed is a personalized audio learning app that turns books and other knowledge sources into narrated listening experiences. It helps people learn on demand through interactive audio, voice selection, and built-in learning tools.
Gemini 3.1 Flash TTS is Google’s preview text-to-speech model for generating expressive AI speech with fine-grained control over style and delivery. It is available across the Gemini API, Google AI Studio, Vertex AI, and Google Vids.
蓝藻AI是一款在线AI配音与语音合成产品,可将文字转成语音,并支持自助声音克隆。页面信息显示它面向短视频、有声书等需要配音的内容场景。
Ondoku 是一款可直接在瀏覽器使用的文字轉語音工具,可將文字轉成可下載的 .mp3 語音,提供免費額度與付費方案,支援多語朗讀、圖片朗讀與按規則商用。
Typecast is an online AI voice generator that turns text into life-like speech with emotional delivery and a selection of hyper-realistic voices. It is a browser-based tool for creating spoken audio from written content.