UStackUStack
MAI-Transcribe-1 icon

MAI-Transcribe-1

MAI-Transcribe-1 是多語言語音轉文字模型,可涵蓋 25 種語言,支援批次與低延遲轉寫情境。

MAI-Transcribe-1

MAI-Transcribe-1 是什麼?

MAI-Transcribe-1 是一款多語言語音轉文字 (ASR) 模型,專為開發全球產品的開發者設計。它將語音音頻轉換為文字記錄,並針對生產環境,其中音頻可能包含不同語言、口音及挑戰性錄音條件。

根據 Microsoft 表示,MAI-Transcribe-1 針對 25 種語言優化準確度,並支援批次與低延遲轉寫需求。該模型可在 Microsoft Foundry(公開預覽)取得,並可透過 Microsoft AI Playground 存取。

主要功能

  • 25 種語言多語言語音轉文字:單一模型適用於全球產品情境,處理不同說話風格。
  • 批次轉寫速度:Microsoft 表示批次轉寫比其「目前 Microsoft Azure Fast 方案」快 2.5 倍
  • 低延遲效能:適用於即時任務,如會議轉寫、影片隱藏式字幕及語音輸入。
  • 雜訊或困難音頻的穩健轉寫:提供背景雜訊、低品質錄音及重疊語音的基準測試與範例。
  • 生產導向部署:透過 Microsoft Foundry(公開預覽)提供,並用於 Microsoft 產品的分階段推出。
  • 整合語音代理工作流程:結合 MAI-Voice-1(文字轉語音)及 LLM(依描述),支援基於轉寫及後續理解的端到端語音體驗。

如何使用 MAI-Transcribe-1

  1. 在 Microsoft Foundry(公開預覽)存取模型,並為您的轉寫工作流程(批次或低延遲)進行設定。
  2. 在 Microsoft AI Playground 快速測試,評估您的音頻情境轉寫品質。
  3. 針對語音代理專案,將 MAI-Transcribe-1 的轉寫輸出搭配 LLM 進行意圖/指令解讀,並可選擇使用 MAI-Voice-1 進行文字轉語音回應。

頁面亦提及 MAI-Transcribe-1 用於 Copilot 語音模式Microsoft Teams 的分階段推出,用於對話轉寫。

使用情境

  • 會議轉寫與存檔:將語音會議轉換為可搜尋的文字記錄,供後續檢視與擷取。
  • 需語音理解的語音代理:使用 MAI-Transcribe-1 作為語音轉文字層,讓底層 LLM 從轉寫中解讀使用者意圖。
  • 客服中心分析與品管:產生適用於後續分析的轉寫,如品管與客戶洞察擷取。
  • 媒體與無障礙工作流程:為影片產生字幕、轉寫播客,並透過語音轉文字支援影片無障礙。
  • 音頻存檔的搜尋與知識建構:建立可搜尋音頻庫,並支援用於 ML 訓練、搜尋索引或摘要的大型音頻存檔處理管線。

常見問題

  • MAI-Transcribe-1 是語音轉文字模型還是文字模型? 它是語音轉文字(自動語音辨識)模型,可從音頻產生轉寫。

  • 支援多少語言? 頁面表示支援 25 種語言

  • 是否支援即時轉寫? Microsoft 表示模型延遲足夠低,適用於即時任務,如會議轉寫、影片隱藏式字幕及語音輸入。

  • 可在哪裡存取 MAI-Transcribe-1? 可在 Microsoft Foundry(公開預覽)取得,並可在 Microsoft AI Playground 試用。

  • 與語音代理的關係為何? 頁面描述其為語音代理的基礎轉寫層,搭配 MAI-Voice-1(文字轉語音)及選定的 LLM。

替代方案

  • 其他 ASR/語音轉文字模型:可依語言涵蓋範圍、在您的音頻條件下的準確度及延遲需求,比較 MAI-Transcribe-1 與其他語音辨識模型。
  • 雲端轉寫 API(通用語音轉文字服務):當您需要管理式 API 進行轉寫,而非執行或自訂 ASR 模型時,通常使用這些服務。
  • 裝置端或離線語音辨識方案:若您的流程優先離線處理而非低延遲,或需無需依賴線上推論處理音頻,可考慮這些方案。
  • 影片字幕/轉寫管線:針對專注字幕與無障礙的團隊,替代方案可能是整合轉寫與字幕生成的流程工具,而非獨立 ASR 模型。
MAI-Transcribe-1 | UStack