Voxtral TTS

Voxtral TTSは、Mistralの多言語テキスト読み上げモデル。音声エージェントや企業向け音声ワークフローに、自然で低遅延の音声を生成し、短い参照音声での適応も可能。

概要

Voxtral TTSはMistral初のテキスト読み上げモデルで、多言語の音声生成向けオープンウェイトシステムとして発表されました。テキストを音声エージェントやその他の音声インターフェース向けの自然な音声に変換するよう設計されており、自然さ、低遅延、新しい声への容易な適応に重点を置いています。

Mistralは、このモデルを品質と速度の両方が重要な企業向け音声ワークフローに位置づけています。発表では、9言語対応、感情表現豊かな音声、短い参照からのカスタム音声適応、Mistral Studio、Le Chat、API、Hugging Face上のオープンウェイトを通じたアクセスが強調されています。

機能

多言語音声生成

リアルで感情表現豊かな音声を生成し、9つの対応言語にわたる多言語音声生成向けに位置づけられています。

即時の音声適応

短い参照音声からのカスタム音声適応に対応し、アクセント、イントネーション、間などの発話ニュアンスも含めて再現できます。

低遅延出力

低遅延ストリーミング向けに設計されており、一般的な10秒の音声サンプルと500文字で70msのモデル遅延が報告されています。

コンパクトなモデルサイズ

コンパクトな4Bパラメータのモデル規模で動作し、Mistralはこれにより音声エージェントの導入を大規模でも自然かつ費用対効果の高いものにできるとしています。

クロスリンガル音声プロンプト

クロスリンガルの音声適応をサポートし、ある言語の音声プロンプトを使って別の言語で音声を生成できます。

StudioとAPIアクセス

Mistral Studioで試せるほか、ソースによればAPIにはプリセット音声が含まれ、社内の音声ライブラリへ拡張するオプションもあります。

使用例

音声エージェント
自然で表現力のある音声出力が必要なアシスタントやエージェント向けに、テキストの棒読みではない音声応答を生成します。
多言語ローカライズ
顧客向け音声を対応言語へローカライズしつつ、配信する音声の一貫性を参照音声やアクセントに合わせて保ちます。
クロスリンガル翻訳
生成音声が話者の特徴を保ちながら言語だけを変える必要がある、音声対音声の翻訳フローを構築します。
音声プロトタイピング
本番環境に組み込む前に、Mistral Studioで音声参照を試しながらブランドの社内音声をプロトタイプ作成または改善します。
企業向け音声パイプライン
APIまたはオープンウェイトを使って、既存のLLMや音声認識パイプラインの残りを置き換えることなく音声出力を追加します。

Pros and Cons

Pros

9つの主要言語と複数の方言をサポートしており、多言語の音声生成に適しています。
短い参照サンプルからカスタム音声に適応でき、リズムやイントネーションなどの発話スタイルの詳細を保持できます。
音声エージェント用途とストリーミング出力に向けて低遅延を重視しています。
Mistral Studio、Le Chat、API利用、Hugging Face上のオープンウェイトなど、複数のアクセス方法を提供しています。
クロスリンガル音声適応を前提に構築されており、音声対音声の翻訳ワークフローを支援できます。

Cons

製品ページでは、Mistral Studio、Le Chat、API、Hugging Faceでの提供以外の統合パターンについて公開情報が限られています。
発表では、Voxtral TTSのAPI料金以外に、完全な価格体系の内訳は示されていません。
オープンウェイト版はCC BY NC 4.0の下で提供されると説明されており、条件を確認しない限り、すべての商用利用に適するとは限りません。

FAQ

Voxtral TTSにはどのようにアクセスできますか？

Voxtral TTSは現在API経由で利用でき、Mistral StudioおよびLe Chatでも試用できます。

Voxtral TTSはどの言語に対応していますか？

ソースによると、対応言語は9言語で、英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語です。

Voxtral TTSにはどのくらいの参照音声が必要ですか？

このモデルは、約5〜25秒の音声プロンプトとテキストプロンプトを受け取ると説明されています。Mistralは、最短3秒の参照音声でもカスタム音声に適応できるとも述べています。

Voxtral TTSは長い音声クリップを生成できますか？

発表では、APIはスマートなインターリーブにより長時間の生成に対応し、モデル自体はネイティブで最大2分の音声を生成できるとされています。

Voxtral TTSはオープンウェイトですか？

Mistralによると、複数の参照音声を備えたモデルが、Hugging Face上でCC BY NC 4.0の下にオープンウェイトとして利用できます。

Quick Facts

カテゴリ: テキスト読み上げ
製品: Voxtral TTS
ベンダー: Mistral AI
ソースドメイン: mistral.ai
言語: 英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語
アクセス: API、Mistral Studio、Le Chat、Hugging Face上のオープンウェイト

Voxtral TTSの代替品

Wallie

Wallieは、画面を見てチャットを聞き、設定したペルソナでライブ解説を生成するオープンソースAI streamer。自分のキーでローカル実行でき、顔出しなし配信や自律配信、リアルタイム反応に最適です。

Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTSは、表現力の高いAI音声を生成し、スタイルや話し方を細かく制御できるGoogleのプレビュー音声合成モデルです。Gemini API、Google AI Studio、Vertex AI、Google Vidsで利用できます。

蓝藻AI

蓝藻AIは、テキストを音声に変換できるオンラインAI音声合成・配音ツールです。自助式の音声クローンにも対応し、短編動画やオーディオブックのナレーションに最適です。

Ondoku

Ondokuは、ブラウザで使える文字起こし・音声化ソフトです。テキストを.mp3でダウンロードでき、無料枠と有料プラン、多言語読み上げ、画像読み上げ、条件付き商用利用に対応します。

PXZ AI

画像、動画、音声、ライティング、チャットのツールを統合したオールインワンAIプラットフォームで、創造性とコラボレーションを高めます。

Gemma AI

Gemma AIは、プッシュ通知の代わりに予定に合わせて電話でリマインドする通話型リマインダーアプリです。Googleカレンダー同期と会話形式の操作に対応。