UStackUStack
MAI-Transcribe-1 icon

MAI-Transcribe-1

MAI-Transcribe-1, modèle multilingue de reconnaissance vocale, génère des transcriptions fiables dans 25 langues, en mode batch et faible latence.

MAI-Transcribe-1

Qu'est-ce que MAI-Transcribe-1 ?

MAI-Transcribe-1 est un modèle multilingue de reconnaissance vocale (ASR) conçu pour les développeurs créant des produits mondiaux. Il convertit l'audio parlé en transcriptions textuelles et vise les environnements de production où l'audio peut inclure différentes langues, accents et conditions d'enregistrement difficiles.

Selon Microsoft, MAI-Transcribe-1 est optimisé pour une précision sur 25 langues et prend en charge les besoins de transcription batch et faible latence. Le modèle est disponible sur Microsoft Foundry (aperçu public) et accessible via Microsoft AI Playground.

Fonctionnalités principales

  • Reconnaissance vocale multilingue sur 25 langues : Un seul modèle pour gérer les scénarios de produits mondiaux avec divers styles de parole.
  • Vitesse de transcription batch : Microsoft indique que la transcription batch est 2,5× plus rapide que son « offre actuelle Microsoft Azure Fast ».
  • Performance faible latence : Adapté aux tâches en temps réel comme la transcription de réunions, les sous-titres vidéo et la dictée.
  • Transcription robuste dans des audios bruyants ou difficiles : Benchmarks et exemples pour bruit de fond, enregistrements de faible qualité et paroles superposées.
  • Déploiement orienté production : Proposé via Microsoft Foundry en aperçu public et utilisé dans des déploiements progressifs avec les produits Microsoft.
  • Intégration dans un workflow d'agent vocal : Combiné avec MAI-Voice-1 (synthèse vocale) et un LLM (comme décrit), il prend en charge des expériences vocales de bout en bout basées sur transcription et compréhension en aval.

Comment utiliser MAI-Transcribe-1

  1. Accédez au modèle sur Microsoft Foundry (aperçu public) et configurez-le pour votre workflow de transcription (batch ou faible latence).
  2. Testez rapidement dans Microsoft AI Playground pour évaluer la qualité des transcriptions sur vos scénarios audio.
  3. Pour les projets d'agents vocaux, associez les sorties de transcription de MAI-Transcribe-1 à un LLM pour l'interprétation d'intentions/commandes et utilisez optionnellement MAI-Voice-1 pour les réponses vocales.

La page note également que MAI-Transcribe-1 est utilisé dans des déploiements progressifs avec le mode Vocal de Copilot et Microsoft Teams pour les transcriptions de conversations.

Cas d'usage

  • Transcription et archivage de réunions : Convertissez les réunions parlées en transcriptions recherchables pour révision et récupération ultérieures.
  • Agents vocaux nécessitant une compréhension vocale : Utilisez MAI-Transcribe-1 comme couche de reconnaissance vocale pour qu'un LLM sous-jacent interprète l'intention utilisateur à partir de la transcription.
  • Analytique et contrôle qualité des centres d'appels : Produisez des transcriptions adaptées à l'analyse en aval comme l'assurance qualité et l'extraction d'insights clients.
  • Workflows média et accessibilité : Générez des sous-titres vidéo, transcrivez des podcasts et soutenez l'accessibilité vidéo via des sorties de reconnaissance vocale.
  • Recherche et construction de connaissances sur archives audio : Créez des bibliothèques audio recherchables et soutenez des pipelines de traitement à grande échelle pour archives audio utilisées en entraînement ML, indexation de recherche ou résumé.

FAQ

  • MAI-Transcribe-1 est-il un modèle de reconnaissance vocale ou un modèle de texte ? C'est un modèle de reconnaissance vocale (ASR) qui produit des transcriptions à partir d'audio.

  • Combien de langues prend-il en charge ? La page indique qu'il prend en charge 25 langues.

  • Prend-il en charge la transcription en temps réel ? Microsoft indique que le modèle a une latence suffisamment faible pour les tâches en temps réel comme la transcription de réunions, les sous-titres vidéo et la dictée.

  • Où puis-je accéder à MAI-Transcribe-1 ? Il est disponible sur Microsoft Foundry (aperçu public) et testable dans Microsoft AI Playground.

  • Quel est son lien avec les agents vocaux ? La page le décrit comme une couche de transcription fondamentale pour agents vocaux, associé à MAI-Voice-1 (synthèse vocale) et un LLM choisi.

Alternatives

  • Autres modèles ASR/reconnaissance vocale : Comparez MAI-Transcribe-1 à d'autres modèles de reconnaissance vocale en fonction de la couverture linguistique, de la précision sur vos conditions audio et des exigences de latence.
  • API de transcription cloud (services de reconnaissance vocale généralistes) : Utilisés typiquement pour une API gérée de transcription plutôt que pour exécuter ou personnaliser un modèle ASR.
  • Solutions de reconnaissance vocale sur appareil ou hors ligne : Envisagez-les si votre workflow privilégie le traitement hors ligne plutôt que la faible latence ou si vous devez traiter l'audio sans inférence en ligne.
  • Pipelines de sous-titrage/transcription vidéo : Pour les équipes focalisées sur les sous-titres et l'accessibilité, des alternatives peuvent être des outils de workflow intégrant transcription et génération de sous-titres plutôt qu'un modèle ASR autonome.
MAI-Transcribe-1 | UStack