Voxtral Transcribe 2

Voxtral Transcribe 2 是 Mistral AI 的语音转文字系列，适用于批量和实时转写，支持说话人分离、时间戳、多语言，并可在 Mistral Studio 的音频 playground 中先行测试再集成。

概述

Voxtral Transcribe 2 是 Mistral AI 的语音转文字产品，作为两款下一代转写模型推出：用于批量转写的 Voxtral Mini Transcribe V2，以及用于实时应用的 Voxtral Realtime。此次发布重点在于转写质量、说话人分离、低延迟和语言覆盖，而非更广泛的对话或智能体平台。

产品页说明 Voxtral Mini Transcribe V2 提供业界领先的转写能力，支持说话人分离、上下文偏置和逐词时间戳，并覆盖 13 种语言；Voxtral Realtime 则为流式音频设计，延迟可配置至 200 毫秒以下。Mistral 还表示 Realtime 模型以 Apache 2.0 许可的开源权重形式提供，并且 Mistral Studio 中的音频 playground 可让用户在对接 API 之前先测试带说话人分离和时间戳的转写。

来源将 Voxtral 定位于会议转写、语音智能体、呼叫中心自动化、媒体字幕制作和合规文档等工作流。文章中的定价信息显示，两种模型都可通过 API 使用，其中 Mini Transcribe V2 为每分钟 $0.003，Realtime 为每分钟 $0.006，此外 Realtime 还在 Hugging Face 上发布了开源权重。

主要能力

说话人分离

Voxtral Mini Transcribe V2 可生成带说话人标注的转写内容，并提供精确的开始和结束时间，适合需要知道谁在何时说了什么的场景。

上下文偏置

你可以提供最多 100 个词或短语来引导模型更倾向于识别姓名、技术术语和其他标准转写系统可能遗漏的词汇。

逐词时间戳

该模型可返回逐词时间戳，支持字幕制作、可搜索归档以及与时间轴对齐的内容工作流。

增强的多语言支持

两种模型都支持 13 种语言：英语、中文、印地语、西班牙语、阿拉伯语、法语、葡萄牙语、俄语、德语、日语、韩语、意大利语和荷兰语。

批量与实时模式

Voxtral Realtime 面向实时音频构建，并支持可配置至 200 毫秒以下的延迟；而 Mini Transcribe V2 则定位于批量转写。

Studio 中的音频 playground

产品说明强调在 Mistral Studio 中提供音频 playground，可立即测试说话人分离、时间戳和音频文件上传。

常见用例

会议纪要与总结
对重复举行的会议进行转写，附带说话人标注和时间戳，方便团队在通话后回顾决策、任务分配和讨论脉络。
语音智能体与助手
为需要足够低转写延迟、以保持语音交互响应性的对话式智能体和助手体验提供支持。
呼叫中心工作流
实时处理客户支持或销售通话，利用说话人分离区分坐席和客户发言，便于后续分析或录入 CRM。
媒体与字幕
为多语言媒体生成实时或近实时字幕，低延迟和逐词时间信息有助于将语音与屏幕字幕对齐。
合规与审计记录
使用说话人分离和时间戳记录受监管或敏感的对话，以便形成更清晰的审计轨迹，支持审查和文档记录。

Pros and Cons

Pros

在同一产品系列下同时提供批量和低延迟转写选项。
包含说话人分离和逐词时间戳，转写结果更结构化。
支持 13 种语言，覆盖欧洲和亚洲的多种主要语言。
在 Mistral Studio 中提供音频 playground，便于集成前快速测试。
Voxtral Realtime 以 Apache 2.0 许可下的开源权重形式提供，适合边缘或私有部署场景。

Cons

公开来源是一篇发布文章，因此设置说明、SDK 细节和部署示例都比较有限。
上下文偏置被描述为针对英语优化，其他语言的支持被标记为实验性。
文章指出在重叠语音情况下，模型通常只转写一位说话人，这在多人密集音频中可能是限制。

FAQ

什么是 Voxtral Transcribe 2？

Voxtral Transcribe 2 是一个语音转文字产品系列，提供两种模型选项：用于批量转写的 Voxtral Mini Transcribe V2，以及用于实时应用的 Voxtral Realtime。文章还提到可直接在 Mistral Studio 中的音频 playground 里测试转写。

这两个模型有什么区别？

来源将 Voxtral Mini Transcribe V2 描述为批量转写模型，而将 Voxtral Realtime 描述为面向实时应用、强调低延迟的流式模型。除了这些产品名称和 Mistral Studio playground 之外，文章并未提供完整的 API 或 SDK 工作流程。

我可以在 Mistral Studio 中试用吗？

根据来源，Mistral Studio 的音频 playground 支持上传最多 10 个音频文件、切换说话人分离、选择时间戳粒度，以及添加上下文偏置词。它接受 .mp3、.wav、.m4a、.flac 和 .ogg 文件，每个文件最大 1GB。

Voxtral Transcribe 2 如何计费？

文章说明 Voxtral Mini Transcribe V2 可通过 API 使用，价格为每分钟 $0.003；Voxtral Realtime 可通过 API 使用，价格为每分钟 $0.006，同时也以 Hugging Face 上的开源权重形式提供。定价页面还确认 Mistral 提供 API 使用和 Studio 仪表盘，但未补充 Voxtral 的具体打包细节。

Voxtral 可以自托管或私有部署吗？

来源称 Voxtral Realtime 采用 Apache 2.0 许可下的开源权重，并可部署到边缘设备。还提到两个模型都支持安全的本地部署或私有云部署，适用于符合 GDPR 和 HIPAA 的场景，但文章没有提供具体实施步骤。

Quick Facts

类别: 语音转文字
产品系列: Voxtral Mini Transcribe V2 和 Voxtral Realtime
主要工作流: 批量转写和实时转写
语言: 13 种语言
Studio 访问: Mistral Studio 中的音频 playground
定价信号: 文章列出 API 用量；Mini Transcribe V2 为 $0.003/分钟，Realtime 为 $0.006/分钟