Voxtral TTS

Voxtral TTS 是 Mistral 的文本转语音模型，可生成逼真、多语言语音，适用于语音代理与企业语音流程。支持短参考音色适配、低延迟输出，并可通过 Mistral Studio、Le Chat、API 及 Hugging Face 开放权重访问。

AI语音合成

AI语音助手

文本转语音

访问网站

概述

Voxtral TTS 是 Mistral 推出的首个文本转语音模型，作为支持开放权重的系统发布，用于多语言语音生成。它旨在将文本转化为逼真的语音，适用于语音代理和其他语音界面，重点关注自然度、低延迟以及对新音色的便捷适配。

Mistral 将该模型定位于对质量和速度同样敏感的企业语音工作流。公告强调其支持 9 种语言、富有情感表达的语音、通过短参考音频进行自定义音色适配，以及可通过 Mistral Studio、Le Chat、API 和 Hugging Face 上的开放权重进行访问。

功能

多语言语音生成

生成逼真、富有情感表达的语音，并定位于覆盖 9 种受支持语言的多语言语音生成。

即时音色适配

支持通过简短参考音频进行自定义音色适配，包括口音、语调、停顿和其他说话细节。

低延迟输出

专为低延迟流式输出而设计，据称在典型的 10 秒语音样本和 500 个字符场景下模型延迟为 70 毫秒。

紧凑的模型体积

采用紧凑的 40 亿参数模型规模，Mistral 表示这有助于在大规模部署语音代理时兼顾自然度与成本效益。

跨语言音色提示

支持跨语言音色适配，可使用另一种语言的音色提示来生成某种语言的语音。

Studio 与 API 访问

可在 Mistral Studio 中测试，来源还说明 API 包括预设音色，并可扩展到内部音色库。

使用场景

语音代理
为需要自然、富有表现力的语音输出，而非机械朗读文本的助手和代理生成口语回复。
多语言本地化
在保留参考音色或口音一致性的同时，将面向客户的音频本地化为受支持语言。
跨语言翻译
创建语音到语音翻译流程，使生成结果在改变语言的同时保留源声音色特征。
语音原型设计
在将模型接入生产系统之前，先在 Mistral Studio 中测试语音参考，原型设计或优化品牌内部音色。
企业语音流程
使用 API 或开放权重为现有 LLM 或语音转文本流程添加语音输出，而无需替换其余技术栈。

Pros and Cons

Pros

支持 9 种主要语言和多种方言，适合多语言语音生成。
可根据简短参考样本适配自定义音色，并保留节奏和语调等说话风格细节。
强调面向语音代理场景和流式输出的低延迟。
提供多种访问方式，包括 Mistral Studio、Le Chat、API 使用以及 Hugging Face 上的开放权重。
从设计上支持跨语言音色适配，可用于语音到语音翻译工作流。

Cons

产品页面关于集成方式的公开细节有限，除了 Mistral Studio、Le Chat、API 和 Hugging Face 的可用性之外没有太多信息。
公告没有提供 Voxtral TTS 的完整定价层级明细，仅提到了 API 费率。
开放权重版本说明可在 CC BY NC 4.0 下提供，这可能并不适合所有商业使用场景，需先核对条款。

FAQ

如何访问 Voxtral TTS？

Voxtral TTS 可通过 API 立即使用，Mistral 也表示可在 Mistral Studio 和 Le Chat 中试用。

Voxtral TTS 支持哪些语言？

来源称它支持 9 种语言：英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。

Voxtral TTS 需要多少参考音频？

该模型描述为可接收约 5 到 25 秒的音色提示和文本提示。Mistral 还表示，它仅需 3 秒的参考音频就能适配自定义音色。

Voxtral TTS 可以生成长音频片段吗？

公告称，API 通过智能交错可处理任意长度的生成，而模型本身原生可生成最多两分钟的音频。

Voxtral TTS 是开放权重吗？

Mistral 表示，带有多个参考音色的模型可作为 Hugging Face 上的开放权重提供，许可证为 CC BY NC 4.0。

Quick Facts

类别: 文本转语音
产品: Voxtral TTS
厂商: Mistral AI
源域名: mistral.ai
语言: 英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语、阿拉伯语
访问方式: API、Mistral Studio、Le Chat、Hugging Face 上的开放权重

Voxtral TTS 替代品

Wallie

Wallie 是一款开源 AI 直播助手，能观看屏幕、聆听聊天并以可配置人设生成实时解说。支持本地运行、使用自有密钥，适合无真人出镜内容、自动化直播和实时互动。

Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS 是 Google 的预览版文本转语音模型，可生成富有表现力的 AI 语音，并支持对风格、语速和表达方式进行细粒度控制，适用于 Gemini API、Google AI Studio、Vertex AI 和 Google Vids。

蓝藻AI

蓝藻AI是一款在线AI配音与语音合成工具，可将文字转成语音，并支持自助声音克隆，适用于短视频、有声书等配音场景。

Ondoku

Ondoku 是一款基于浏览器的文字转语音软件，可将文本转换为可下载的 .mp3 语音，提供免费额度与付费方案，支持多语言朗读、图片朗读，并可按规则商用。

PXZ AI

一个集成图像、视频、语音、写作和聊天工具的全能AI平台，以增强创造力和协作。

Gemma AI

Gemma AI 是一款电话提醒应用，会按计划给你打电话提醒，而不是推送通知。支持 Google Calendar 同步与自然对话式通话交互，帮助你更直接地按时安排。