MAI-Voice-2

MAI-Voice-2は、Microsoft AIの自然で表現力豊かな音声合成モデル。アシスタント、サポート、長文ナレーション、アクセシビリティ向けに対応し、Microsoft Foundryで利用可能。15言語/ロケール、感情制御、短い参照音声からのカスタム音声作成をサポート。

音声合成

ウェブサイトを訪問

概要

MAI-Voice-2は、音声品質がユーザー体験に影響する製品やサービス向けに、自然で表現力豊かな音声を生成するMicrosoft AIの音声合成モデルです。Microsoftは、アシスタント、カスタマーサポート、オーディオブック、アクセシビリティ体験、その他の長文またはブランドに配慮が必要な音声ワークフロー向けに位置づけています。

このモデルはMicrosoft Foundryで利用でき、VS CodeおよびDynamics 365 Contact Centerにも統合が進められています。Microsoftによると、15言語/ロケール、タグによる感情制御、短い参照音声からのゼロショット音声プロンプト、特定の言語ペアにおけるコードスイッチングをサポートし、長い生成でも話者の同一性を一貫して保ちます。

機能と性能

表現力のある音声生成

sad、whispered、excitedなどの感情タグを含む、表現力のある制御付きで自然な音声を生成します。

多言語対応

英語のみから15言語/ロケールへ対応範囲を広げつつ、同じ自然さと表現力の維持を目指します。

ゼロショット音声プロンプト

5〜60秒の参照音声を使って、再学習やファインチューニングなしでカスタム音声を作成します。

安定した話者の一貫性

オーディオブック、ポッドキャスト、講義などの長文出力にわたって、話者の同一性を維持します。

混在言語の音声

ヒンディー語-英語、スペイン語-英語など、選択された言語ペアでのコードスイッチングをサポートします。

同意制御

本番環境で合成できるのは、承認済みのライセンス音声のみとするための同意ガードレールを備えています。

ユースケース

ブランド化されたアシスタントとサポート
MAI-Voice-2を使って、アシスタントやカスタマーサポート製品に、製品体験に合ったブランドの一貫した声を持たせます。
長文ナレーション
オーディオブック、ポッドキャスト、講義などの長文音声向けにナレーションを生成し、長い出力全体で安定した話者の同一性が重要な場面に対応します。
アクセシビリティ体験
視覚障害のあるユーザーや、ソフトウェアとの主なやり取り手段として音声出力に依存する人向けに、アクセシブルな音声インターフェースを作成します。
エンターテインメントとキャラクター音声
ゲーム、AR/VR、台本付きメディア向けに、感情や話し方のスタイルを制御しながらキャラクターボイスを構築します。
カスタムブランド音声の作成
短い参照音声を使ってMicrosoft Foundryでカスタム音声を作成し、独自の音声を持ちたい製品チームが、別モデルを学習せずに利用できるようにします。

Pros and Cons

Pros

15言語/ロケールに対応しており、英語だけではありません。
より細かな音声指示ができる感情タグを備えています。
短い参照クリップから、再学習やファインチューニングなしでカスタム音声を作成できます。
長文音声にわたって話者の同一性を維持します。
Microsoft Foundryで利用でき、VS CodeとDynamics 365 Contact Centerにも統合が進められています。

Cons

価格は製品ページで開示されておらず、リンク先の価格ページにもMAI-Voice-2の価格情報はありません。
一部の機能は、対応するすべての言語ではなく、ヒンディー語-英語やスペイン語-英語などの特定の言語ペアに限定されています。
カスタム音声の利用は、承認済みのライセンス音声向けの申請フローによって制限されています。

FAQ

MAI-Voice-2はどこで使えますか？

MAI-Voice-2はMicrosoft Foundryで利用でき、MicrosoftによるとVS CodeおよびDynamics 365 Contact Centerへの統合も進められています。

MAI-Voice-2は何をしますか？

このページでは、MAI-Voice-2は15言語/ロケール、感情タグ、5〜60秒の参照音声からのゼロショット音声プロンプト、選択された言語ペアでのコードスイッチング、長文出力にわたる安定した話者の同一性をサポートする音声合成モデルとして説明されています。

MAI-Voice-2でカスタム音声を作成できますか？

Microsoftによると、短い参照クリップを使ってMicrosoft Foundryでカスタム音声を作成でき、再学習やファインチューニングは不要ですが、本番環境で合成できるのは承認済みのライセンス音声のみです。

MAI-Voice-2はどの言語をサポートしていますか？

ローンチページには、対応言語/ロケールとして、英語（米国）、英語（オーストラリア）、イタリア語、フランス語、ドイツ語、ヒンディー語、スペイン語（スペイン）、スペイン語（メキシコ）、ポルトガル語（ブラジル）、ポルトガル語（ポルトガル）、韓国語、中国語（簡体字）、トルコ語、ロシア語、タイ語、オランダ語、ルーマニア語、ハンガリー語が記載されています。

Quick Facts

カテゴリ: 音声合成
製品: MAI-Voice-2
プラットフォーム: Microsoft Foundry
統合先: VS Code; Dynamics 365 Contact Center
対応言語/ロケール: 15
ソースドメイン: microsoft.ai

MAI-Voice-2の代替品

Wallie

Wallieは、画面を見てチャットを聞き、設定したペルソナでライブ解説を生成するオープンソースAI streamer。自分のキーでローカル実行でき、顔出しなし配信や自律配信、リアルタイム反応に最適です。

BeFreed

BeFreed is a personalized audio learning app that turns books and other knowledge sources into narrated listening experiences. It helps people learn on demand through interactive audio, voice selection, and built-in learning tools.

Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS is Google’s preview text-to-speech model for generating expressive AI speech with fine-grained control over style and delivery. It is available across the Gemini API, Google AI Studio, Vertex AI, and Google Vids.

蓝藻AI

蓝藻AI是一款在线AI配音与语音合成产品，可将文字转成语音，并支持自助声音克隆。页面信息显示它面向短视频、有声书等需要配音的内容场景。

Ondoku

Ondokuは、ブラウザで使える文字起こし・音声化ソフトです。テキストを.mp3でダウンロードでき、無料枠と有料プラン、多言語読み上げ、画像読み上げ、条件付き商用利用に対応します。

Typecast

Typecast is an online AI voice generator that turns text into life-like speech with emotional delivery and a selection of hyper-realistic voices. It is a browser-based tool for creating spoken audio from written content.