MAI-Voice-2 icon

MAI-Voice-2

MAI-Voice-2は、Microsoft AIの自然で表現力豊かな音声合成モデル。アシスタント、サポート、長文ナレーション、アクセシビリティ向けに対応し、Microsoft Foundryで利用可能。15言語/ロケール、感情制御、短い参照音声からのカスタム音声作成をサポート。

MAI-Voice-2

概要

MAI-Voice-2は、音声品質がユーザー体験に影響する製品やサービス向けに、自然で表現力豊かな音声を生成するMicrosoft AIの音声合成モデルです。Microsoftは、アシスタント、カスタマーサポート、オーディオブック、アクセシビリティ体験、その他の長文またはブランドに配慮が必要な音声ワークフロー向けに位置づけています。

このモデルはMicrosoft Foundryで利用でき、VS CodeおよびDynamics 365 Contact Centerにも統合が進められています。Microsoftによると、15言語/ロケール、タグによる感情制御、短い参照音声からのゼロショット音声プロンプト、特定の言語ペアにおけるコードスイッチングをサポートし、長い生成でも話者の同一性を一貫して保ちます。

機能と性能

表現力のある音声生成

sad、whispered、excitedなどの感情タグを含む、表現力のある制御付きで自然な音声を生成します。

多言語対応

英語のみから15言語/ロケールへ対応範囲を広げつつ、同じ自然さと表現力の維持を目指します。

ゼロショット音声プロンプト

5〜60秒の参照音声を使って、再学習やファインチューニングなしでカスタム音声を作成します。

安定した話者の一貫性

オーディオブック、ポッドキャスト、講義などの長文出力にわたって、話者の同一性を維持します。

混在言語の音声

ヒンディー語-英語、スペイン語-英語など、選択された言語ペアでのコードスイッチングをサポートします。

同意制御

本番環境で合成できるのは、承認済みのライセンス音声のみとするための同意ガードレールを備えています。

ユースケース

  • ブランド化されたアシスタントとサポート

    MAI-Voice-2を使って、アシスタントやカスタマーサポート製品に、製品体験に合ったブランドの一貫した声を持たせます。

  • 長文ナレーション

    オーディオブック、ポッドキャスト、講義などの長文音声向けにナレーションを生成し、長い出力全体で安定した話者の同一性が重要な場面に対応します。

  • アクセシビリティ体験

    視覚障害のあるユーザーや、ソフトウェアとの主なやり取り手段として音声出力に依存する人向けに、アクセシブルな音声インターフェースを作成します。

  • エンターテインメントとキャラクター音声

    ゲーム、AR/VR、台本付きメディア向けに、感情や話し方のスタイルを制御しながらキャラクターボイスを構築します。

  • カスタムブランド音声の作成

    短い参照音声を使ってMicrosoft Foundryでカスタム音声を作成し、独自の音声を持ちたい製品チームが、別モデルを学習せずに利用できるようにします。

Pros and Cons

Pros

  • 15言語/ロケールに対応しており、英語だけではありません。
  • より細かな音声指示ができる感情タグを備えています。
  • 短い参照クリップから、再学習やファインチューニングなしでカスタム音声を作成できます。
  • 長文音声にわたって話者の同一性を維持します。
  • Microsoft Foundryで利用でき、VS CodeとDynamics 365 Contact Centerにも統合が進められています。

Cons

  • 価格は製品ページで開示されておらず、リンク先の価格ページにもMAI-Voice-2の価格情報はありません。
  • 一部の機能は、対応するすべての言語ではなく、ヒンディー語-英語やスペイン語-英語などの特定の言語ペアに限定されています。
  • カスタム音声の利用は、承認済みのライセンス音声向けの申請フローによって制限されています。

FAQ

MAI-Voice-2はどこで使えますか?

MAI-Voice-2はMicrosoft Foundryで利用でき、MicrosoftによるとVS CodeおよびDynamics 365 Contact Centerへの統合も進められています。

MAI-Voice-2は何をしますか?

このページでは、MAI-Voice-2は15言語/ロケール、感情タグ、5〜60秒の参照音声からのゼロショット音声プロンプト、選択された言語ペアでのコードスイッチング、長文出力にわたる安定した話者の同一性をサポートする音声合成モデルとして説明されています。

MAI-Voice-2でカスタム音声を作成できますか?

Microsoftによると、短い参照クリップを使ってMicrosoft Foundryでカスタム音声を作成でき、再学習やファインチューニングは不要ですが、本番環境で合成できるのは承認済みのライセンス音声のみです。

MAI-Voice-2はどの言語をサポートしていますか?

ローンチページには、対応言語/ロケールとして、英語(米国)、英語(オーストラリア)、イタリア語、フランス語、ドイツ語、ヒンディー語、スペイン語(スペイン)、スペイン語(メキシコ)、ポルトガル語(ブラジル)、ポルトガル語(ポルトガル)、韓国語、中国語(簡体字)、トルコ語、ロシア語、タイ語、オランダ語、ルーマニア語、ハンガリー語が記載されています。

Quick Facts

カテゴリ
音声合成
製品
MAI-Voice-2
プラットフォーム
Microsoft Foundry
統合先
VS Code; Dynamics 365 Contact Center
対応言語/ロケール
15
ソースドメイン
microsoft.ai