Voxtral Transcribe 2

Voxtral Transcribe 2 是 Mistral AI 的語音轉文字系列，支援批次與即時轉錄，結合說話者區分、時間戳、多語言支援，以及可在 Mistral Studio 先測試的音訊 playground。

概覽

Voxtral Transcribe 2 是 Mistral AI 的語音轉文字產品，推出兩款新一代轉錄模型：Voxtral Mini Transcribe V2 用於批次轉錄，以及 Voxtral Realtime 用於即時應用。這次發佈的重點在於轉錄品質、說話者區分、低延遲與語言覆蓋，而不是更廣泛的對話或代理平台。

產品頁說明 Voxtral Mini Transcribe V2 可在 13 種語言中提供先進的轉錄能力，包含說話者區分、上下文偏置與字級時間戳；而 Voxtral Realtime 則專為串流音訊設計，延遲可配置至低於 200ms。Mistral 也表示 Realtime 模型以 Apache 2.0 形式提供 open weights，且 Mistral Studio 中的音訊 playground 可讓使用者在串接 API 前先測試帶有說話者區分與時間戳的轉錄。

來源將 Voxtral 定位於會議轉錄、語音代理、客服中心自動化、媒體字幕，以及合規文件等工作流程。文章中的價格資訊指出兩個模型都可透過 API 使用，其中 Mini Transcribe V2 為每分鐘 $0.003、Realtime 為每分鐘 $0.006，另外 Realtime 也在 Hugging Face 上以 open weights 形式釋出。

主要功能

說話者區分

Voxtral Mini Transcribe V2 可產生帶有說話者標籤的轉錄內容，並附上精確的開始與結束時間，適合需要知道誰在何時說了什麼的情境。

上下文偏置

你可以提供最多 100 個字詞或片語，讓模型更偏向辨識姓名、技術術語與其他標準轉錄系統可能遺漏的詞彙。

字級時間戳

模型可回傳每個字的時間戳，支援字幕製作、可搜尋檔案庫，以及時間對齊的內容工作流程。

擴展的多語言支援

兩個模型都支援 13 種語言：English、Chinese、Hindi、Spanish、Arabic、French、Portuguese、Russian、German、Japanese、Korean、Italian 和 Dutch。

批次與即時模式

Voxtral Realtime 專為即時音訊打造，延遲可設定至低於 200ms，而 Mini Transcribe V2 則定位為批次轉錄。

Studio 內的音訊 playground

產品說明強調 Mistral Studio 中的音訊 playground，可立即測試說話者區分、時間戳與音訊檔上傳。

常見使用案例

會議記錄與摘要
轉錄定期會議並附上說話者標籤與時間戳，讓團隊在通話後能回顧決策、待辦事項與討論流程。
語音代理與助理
支援需要足夠低轉錄延遲、以維持語音互動流暢性的對話代理與助理體驗。
客服中心工作流程
即時處理客服或銷售通話，並透過說話者區分分離客服與客戶的發言，以便後續分析或寫入 CRM。
媒體與字幕
為多語言媒體產生即時或近即時字幕，利用低延遲與字級時間對齊功能，讓語音與畫面字幕保持一致。
合規與稽核紀錄
記錄受監管或敏感的對話，搭配說話者區分與時間戳，建立更清楚的稽核軌跡以供審查與文件保存。

Pros and Cons

Pros

同一個產品系列同時提供批次與低延遲轉錄選項。
包含說話者區分與字級時間戳，可產生更有結構的轉錄內容。
支援 13 種語言，涵蓋歐洲與亞洲多種主要語言。
提供 Mistral Studio 內的音訊 playground，方便在整合前快速測試。
Voxtral Realtime 以 Apache 2.0 下的 open weights 提供，適合邊緣或私有部署情境。

Cons

公開來源是一篇發表文章，因此設定說明、SDK 細節與部署範例較少。
上下文偏置被描述為針對 English 最佳化，而其他語言的支援標示為實驗性。
文章指出在有重疊語音時，模型通常只會轉錄其中一位說話者，這在高密度多人音訊中可能是限制。

FAQ

什麼是 Voxtral Transcribe 2？

Voxtral Transcribe 2 是一個語音轉文字產品系列，提供兩種模型選項：Voxtral Mini Transcribe V2 用於批次轉錄，而 Voxtral Realtime 用於即時應用。文章也提到可直接在 Mistral Studio 中測試轉錄的音訊 playground。

這兩個模型有什麼不同？

來源將 Voxtral Mini Transcribe V2 描述為批次轉錄模型，而 Voxtral Realtime 則是為即時應用與低延遲需求而設計的串流模型。文章未提供完整的 API 或 SDK 工作流程，只提到這些產品名稱與 Mistral Studio playground。

我可以在 Mistral Studio 試用嗎？

根據來源，Mistral Studio 的音訊 playground 支援上傳最多 10 個音訊檔、切換說話者區分、選擇時間戳粒度，以及加入上下文偏置詞。它接受 .mp3、.wav、.m4a、.flac 和 .ogg 檔案，每個檔案上限為 1GB。

Voxtral Transcribe 2 的價格如何？

文章指出 Voxtral Mini Transcribe V2 可透過 API 以每分鐘 $0.003 使用，而 Voxtral Realtime 可透過 API 以每分鐘 $0.006 使用，並可在 Hugging Face 取得 open weights。定價頁也確認 Mistral 提供 API 用量與 Studio 儀表板，但未補充 Voxtral 專屬的包裝細節。

Voxtral 可以自行託管或私有部署嗎？

來源表示 Voxtral Realtime 以 Apache 2.0 授權釋出 open weights，並可部署在邊緣裝置上。也指出兩個模型都支援安全的 on-premise 或 private cloud 設定，用於符合 GDPR 與 HIPAA 的部署，但文章未提供實作步驟。

Quick Facts

類別: 語音轉文字
產品系列: Voxtral Mini Transcribe V2 和 Voxtral Realtime
主要工作流程: 批次轉錄與即時轉錄
語言: 13 種語言
Studio 存取: Mistral Studio 中的音訊 playground
價格訊號: 發表文章列出 API 用量；Mini Transcribe V2 為 $0.003/分，Realtime 為 $0.006/分