MAI-Voice-2

MAI-Voice-2 是 Microsoft AI 的文字轉語音模型，提供自然且富表現力的語音，適用於助理、客服、長篇旁白與無障礙情境。可於 Microsoft Foundry 使用，支援 15 種語言/地區、情緒控制與短參考自訂聲音建立。

文字轉語音

訪問網站

概覽

MAI-Voice-2 是 Microsoft AI 的文字轉語音模型，能為語音品質會影響使用者體驗的產品與服務生成自然且富表現力的語音。Microsoft 將其定位於助理、客服、有聲書、無障礙體驗，以及其他長篇或對品牌聲音敏感的語音工作流程。

此模型可在 Microsoft Foundry 中使用，並且也正整合至 VS Code 與 Dynamics 365 Contact Center。Microsoft 表示，它支援 15 種語言/地區、透過標籤進行情緒控制、可從短參考音訊進行 zero-shot 聲音提示，以及針對特定語言對的 code-switching，同時在較長的生成內容中維持說話者一致性。

功能與能力

富表現力的語音生成

產生聽起來自然的語音，並提供富表現力的控制，包括 sad、whispered 與 excited 等情緒標籤。

多語言支援

支援範圍從僅英文擴展到 15 種語言/地區，同時盡量保持相同的自然度與表現力。

Zero-shot 聲音提示

使用 5–60 秒的參考音訊建立自訂聲音，無需重新訓練或微調。

穩定的說話者一致性

在長篇輸出中維持說話者身分一致性，例如有聲書、Podcast 與演講。

混合語言語音

支援特定語言對的 code-switching，例如 Hindi-English 與 Spanish-English。

同意控管

包含同意控管機制，確保正式環境中只能合成已授權、經核准的聲音。

使用案例

品牌化助理與客服
使用 MAI-Voice-2 為助理或客服產品提供品牌化且一致的聲音，讓其與使用者從產品中聽到的體驗相符。
長篇旁白
為有聲書、Podcast 與演講等長篇音訊生成旁白，因為在長時間輸出中維持說話者一致性很重要。
無障礙體驗
為視障使用者或依賴語音輸出作為與軟體互動主要方式的人，建立無障礙語音介面。
娛樂與角色音訊
為遊戲、AR/VR 或腳本化媒體建立角色聲音，並可控制情緒與表達風格。
自訂品牌聲音建立
利用短參考音訊在 Microsoft Foundry 中建立自訂聲音，適合希望擁有自家聲音、但不想訓練獨立模型的產品團隊。

Pros and Cons

Pros

支援 15 種語言/地區，而不僅是英文。
提供情緒標籤，可更精細地控制語音表現。
可從短參考片段建立自訂聲音，無需重新訓練或微調。
在長篇音訊中維持說話者一致性。
可在 Microsoft Foundry 使用，並正整合至 VS Code 與 Dynamics 365 Contact Center。

Cons

產品頁未揭露價格，而連結的定價頁也未提供 MAI-Voice-2 的價格細節。
部分能力僅限於特定語言對，例如 Hindi-English 與 Spanish-English，而非所有支援語言。
自訂聲音存取需經由申請流程，且僅限已授權、經核准的聲音。

FAQ

我可以在哪裡使用 MAI-Voice-2？

MAI-Voice-2 可在 Microsoft Foundry 中使用，而 Microsoft 也表示它正整合至 VS Code 與 Dynamics 365 Contact Center。

MAI-Voice-2 有什麼功能？

此頁將 MAI-Voice-2 描述為一個文字轉語音模型，支援 15 種語言/地區、情緒標籤、從 5–60 秒參考音訊進行 zero-shot 聲音提示、特定語言對的 code-switching，以及長篇輸出中的穩定說話者一致性。

我可以用 MAI-Voice-2 建立自訂聲音嗎？

Microsoft 表示，可在 Microsoft Foundry 中使用短參考片段建立自訂聲音，且無須重新訓練或微調，但僅限已授權、經核准的聲音可在正式環境中合成。

MAI-Voice-2 支援哪些語言？

發表頁列出支援的語言/地區，包括英文（美國）、英文（澳洲）、義大利文、法文、德文、印地語、西班牙文（西班牙）、西班牙文（墨西哥）、葡萄牙文（巴西）、葡萄牙文（葡萄牙）、韓文、中文（簡體）、土耳其文、俄文、泰文、荷蘭文、羅馬尼亞文與匈牙利文。

Quick Facts

類別: 文字轉語音
產品: MAI-Voice-2
平台: Microsoft Foundry
亦整合至: VS Code; Dynamics 365 Contact Center
支援語言/地區: 15
來源網域: microsoft.ai

MAI-Voice-2 替代品

Wallie

Wallie 是開源 AI streamer，可觀看你的螢幕、聆聽聊天室，並以可設定的人設即時生成直播評論；支援本機執行與自有金鑰，適合無真人出鏡、自治直播與即時互動。

BeFreed

BeFreed 是一款個人化音訊學習 App，將書籍與知識內容轉為可隨選收聽的旁白體驗，支援互動式音訊、聲音選擇與內建學習工具，方便隨時學習。

Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS 是 Google 的預覽版文字轉語音模型，可生成富有表現力的 AI 語音，並細緻控制風格與呈現方式。支援 Gemini API、Google AI Studio、Vertex AI 與 Google Vids。

蓝藻AI

藍藻AI 是線上 AI 配音與語音合成工具，可將文字轉成語音，支援自助聲音克隆，適合短影音、有聲書等需要快速配音的內容場景。

Ondoku

Ondoku 是一款可直接在瀏覽器使用的文字轉語音工具，可將文字轉成可下載的 .mp3 語音，提供免費額度與付費方案，支援多語朗讀、圖片朗讀與按規則商用。

Typecast

Typecast 是一款線上 AI 聲音生成器，可將文字轉為擬真語音，支援情感表達與多種超擬真聲音，適合在瀏覽器中快速製作配音內容。