UStackUStack
MAI-Transcribe-1 icon

MAI-Transcribe-1

MAI-Transcribe-1は25言語対応の多言語音声認識モデル。バッチ/低遅延の文字起こしに最適で、Microsoft FoundryやAI Playgroundで利用可能。

MAI-Transcribe-1

MAI-Transcribe-1とは?

MAI-Transcribe-1は、グローバル製品を構築する開発者向けの多言語音声認識(ASR)モデルです。話された音声をテキスト文字起こしに変換し、異なる言語、アクセント、困難な録音条件を含む音声に対応した本番環境を対象としています。

Microsoftによると、MAI-Transcribe-1は25言語での精度を最適化しており、バッチおよび低遅延の文字起こしニーズをサポートします。モデルはMicrosoft Foundry(パブリックプレビュー)で利用可能で、Microsoft AI Playgroundからもアクセスできます。

主な機能

  • 25言語対応の多言語音声認識: さまざまな話し方のグローバル製品シナリオに対応する単一モデル。
  • バッチ文字起こし速度: Microsoftによると、バッチ文字起こしは「現在のMicrosoft Azure Fast offering」より2.5倍高速
  • 低遅延性能: 会議文字起こし、ビデオクローズドキャプション、ディクテーションなどのリアルタイムタスク向け。
  • ノイズや困難な音声での堅牢な文字起こし: 背景ノイズ、低品質録音、重なり話声のベンチマークと例が示されています。
  • 本番環境向けデプロイ: Microsoft Foundry(パブリックプレビュー)で提供され、Microsoft製品の段階的ロールアウトで使用。
  • 音声エージェントワークフローへの統合: MAI-Voice-1(音声合成)とLLM(記述通り)と組み合わせることで、文字起こし+後続理解によるエンドツーエンド音声体験をサポート。

MAI-Transcribe-1の使い方

  1. Microsoft Foundry(パブリックプレビュー)でモデルにアクセスし、文字起こしワークフロー(バッチまたは低遅延用)に設定。
  2. Microsoft AI Playgroundで迅速にテストし、音声シナリオの文字起こし品質を評価。
  3. 音声エージェントプロジェクトの場合、MAI-Transcribe-1の文字起こし出力をLLMでインテント/コマンド解釈し、オプションでMAI-Voice-1を音声合成応答に使用。

ページでは、MAI-Transcribe-1がCopilotのVoiceモードおよびMicrosoft Teamsの会話文字起こしで段階的ロールアウト中使用されていると記載されています。

ユースケース

  • 会議文字起こしとアーカイブ: 話された会議を後でレビュー・検索可能な文字起こしに変換。
  • 音声理解が必要な音声エージェント: MAI-Transcribe-1を音声認識層として使用し、下位LLMで文字起こしからユーザーインテントを解釈。
  • コールセンター分析とQA: 品質保証や顧客インサイト抽出などの後続分析に適した文字起こしを生成。
  • メディア・アクセシビリティワークフロー: ビデオ字幕生成、ポッドキャスト文字起こし、音声認識出力を通じたビデオアクセシビリティ支援。
  • 音声アーカイブの検索・知識構築: 検索可能な音声ライブラリを作成し、MLトレーニング、検索インデックス、サマリゼーション用の大規模音声アーカイブ処理パイプラインをサポート。

FAQ

  • MAI-Transcribe-1は音声認識モデルですか、それともテキストモデルですか? 音声から文字起こしを生成する音声認識(自動音声認識)モデルです。

  • 対応言語数は? ページでは25言語をサポートすると記載。

  • リアルタイム文字起こしに対応していますか? Microsoftによると、会議文字起こし、ビデオクローズドキャプション、ディクテーションなどのリアルタイムタスクに適した十分低い遅延

  • どこでMAI-Transcribe-1を利用できますか? Microsoft Foundry(パブリックプレビュー)で利用可能で、Microsoft AI Playgroundで試せます。

  • 音声エージェントとの関連は? ページでは、音声エージェントの基盤文字起こし層として記述され、MAI-Voice-1(音声合成)と選択したLLMと組み合わせ。

代替案

  • 他のASR/音声認識モデル: 言語カバレッジ、音声条件での精度、遅延要件に基づき、MAI-Transcribe-1と代替音声認識モデルを比較。
  • クラウド文字起こしAPI(汎用音声認識サービス): ASRモデルをカスタマイズ・実行する代わりに、管理APIによる文字起こしを求める場合に使用。
  • オンデバイス/オフライン音声認識ソリューション: ワークフローが低遅延よりオフライン処理を優先するか、オンライン推論に依存しない音声処理が必要な場合を検討。
  • ビデオ字幕/文字起こしパイプライン: 字幕・アクセシビリティに特化したチーム向けに、単独ASRモデルではなく文字起こしと字幕生成を統合したワークフローツール。
MAI-Transcribe-1 | UStack