表現力のある音声生成
sad、whispered、excitedなどの感情タグを含む、表現力のある制御付きで自然な音声を生成します。
MAI-Voice-2は、音声品質がユーザー体験に影響する製品やサービス向けに、自然で表現力豊かな音声を生成するMicrosoft AIの音声合成モデルです。Microsoftは、アシスタント、カスタマーサポート、オーディオブック、アクセシビリティ体験、その他の長文またはブランドに配慮が必要な音声ワークフロー向けに位置づけています。
このモデルはMicrosoft Foundryで利用でき、VS CodeおよびDynamics 365 Contact Centerにも統合が進められています。Microsoftによると、15言語/ロケール、タグによる感情制御、短い参照音声からのゼロショット音声プロンプト、特定の言語ペアにおけるコードスイッチングをサポートし、長い生成でも話者の同一性を一貫して保ちます。
sad、whispered、excitedなどの感情タグを含む、表現力のある制御付きで自然な音声を生成します。
英語のみから15言語/ロケールへ対応範囲を広げつつ、同じ自然さと表現力の維持を目指します。
5〜60秒の参照音声を使って、再学習やファインチューニングなしでカスタム音声を作成します。
オーディオブック、ポッドキャスト、講義などの長文出力にわたって、話者の同一性を維持します。
ヒンディー語-英語、スペイン語-英語など、選択された言語ペアでのコードスイッチングをサポートします。
本番環境で合成できるのは、承認済みのライセンス音声のみとするための同意ガードレールを備えています。
MAI-Voice-2を使って、アシスタントやカスタマーサポート製品に、製品体験に合ったブランドの一貫した声を持たせます。
オーディオブック、ポッドキャスト、講義などの長文音声向けにナレーションを生成し、長い出力全体で安定した話者の同一性が重要な場面に対応します。
視覚障害のあるユーザーや、ソフトウェアとの主なやり取り手段として音声出力に依存する人向けに、アクセシブルな音声インターフェースを作成します。
ゲーム、AR/VR、台本付きメディア向けに、感情や話し方のスタイルを制御しながらキャラクターボイスを構築します。
短い参照音声を使ってMicrosoft Foundryでカスタム音声を作成し、独自の音声を持ちたい製品チームが、別モデルを学習せずに利用できるようにします。
MAI-Voice-2はMicrosoft Foundryで利用でき、MicrosoftによるとVS CodeおよびDynamics 365 Contact Centerへの統合も進められています。
このページでは、MAI-Voice-2は15言語/ロケール、感情タグ、5〜60秒の参照音声からのゼロショット音声プロンプト、選択された言語ペアでのコードスイッチング、長文出力にわたる安定した話者の同一性をサポートする音声合成モデルとして説明されています。
Microsoftによると、短い参照クリップを使ってMicrosoft Foundryでカスタム音声を作成でき、再学習やファインチューニングは不要ですが、本番環境で合成できるのは承認済みのライセンス音声のみです。
ローンチページには、対応言語/ロケールとして、英語(米国)、英語(オーストラリア)、イタリア語、フランス語、ドイツ語、ヒンディー語、スペイン語(スペイン)、スペイン語(メキシコ)、ポルトガル語(ブラジル)、ポルトガル語(ポルトガル)、韓国語、中国語(簡体字)、トルコ語、ロシア語、タイ語、オランダ語、ルーマニア語、ハンガリー語が記載されています。
Wallieは、画面を見てチャットを聞き、設定したペルソナでライブ解説を生成するオープンソースAI streamer。自分のキーでローカル実行でき、顔出しなし配信や自律配信、リアルタイム反応に最適です。
BeFreed is a personalized audio learning app that turns books and other knowledge sources into narrated listening experiences. It helps people learn on demand through interactive audio, voice selection, and built-in learning tools.
Gemini 3.1 Flash TTS is Google’s preview text-to-speech model for generating expressive AI speech with fine-grained control over style and delivery. It is available across the Gemini API, Google AI Studio, Vertex AI, and Google Vids.
蓝藻AI是一款在线AI配音与语音合成产品,可将文字转成语音,并支持自助声音克隆。页面信息显示它面向短视频、有声书等需要配音的内容场景。
Ondokuは、ブラウザで使える文字起こし・音声化ソフトです。テキストを.mp3でダウンロードでき、無料枠と有料プラン、多言語読み上げ、画像読み上げ、条件付き商用利用に対応します。
Typecast is an online AI voice generator that turns text into life-like speech with emotional delivery and a selection of hyper-realistic voices. It is a browser-based tool for creating spoken audio from written content.