UStackUStack
Grok Speech to Text and Text to Speech APIs icon

Grok Speech to Text and Text to Speech APIs

APIs Grok Speech to Text et Text to Speech d’xAI : conversion audio/texte à faible latence via REST/WebSocket, support multilingue et diarisation.

Grok Speech to Text and Text to Speech APIs

Qu’est-ce que Grok Speech to Text (STT) et Text to Speech (TTS) ?

Grok Speech to Text (STT) et Grok Text to Speech (TTS) sont des API audio autonomes d’xAI pour convertir la parole en texte et le texte en parole. Elles sont conçues pour que les développeurs ajoutent des fonctionnalités vocales à leurs applications via des endpoints REST et WebSocket.

L’objectif de Grok STT est de produire des transcriptions précises avec des options de sortie structurée. Grok TTS se concentre sur la conversion de texte en parole avec une livraison naturelle et expressive, et un contrôle fin de la prosodie via des balises vocales.

Fonctionnalités principales

  • Transcription haute précision et faible latence : Générez des transcriptions à partir de gros fichiers audio via l’API REST et transcrivez la parole en temps réel avec l’API WebSocket.
  • Horodatages au niveau mot et diarisation des locuteurs : Inclut des ID de locuteurs au niveau mot via diarisation pour séparer et identifier les locuteurs dans l’audio préenregistré et en streaming.
  • Support multicanal : Transcrivez des fichiers audio multicanal avec séparation des locuteurs gérée par la même API.
  • Normalisation inverse de texte (formatage activé) : Convertit le langage parlé en sorties structurées et formatées pour les nombres, dates et devises (ex. : transformer « mon numéro de téléphone est… » en forme formatée attendue).
  • Reconnaissance vocale multilingue : Supporte plus de 25 langues et permet un basculement fluide entre langues.
  • Balises vocales pour TTS expressif : Utilisez des balises inline et enveloppantes comme [laugh], [sigh], [whisper], , et pour contrôler la livraison.
  • Génération REST et WebSocket pour TTS : Créez de la parole à partir de texte avec REST pour une génération par lots et WebSocket pour une sortie vocale en temps réel.

Comment utiliser Grok Speech to Text (STT) et Text to Speech (TTS)

  1. Commencez par la console API xAI et utilisez les endpoints fournis pour STT ou TTS.
  2. Pour la transcription, choisissez REST pour les gros fichiers audio et WebSocket pour une transcription faible latence en temps réel.
  3. Pour TTS, soumettez du texte via REST pour générer de la parole, ou utilisez WebSocket pour une sortie vocale en temps réel.
  4. Si vous avez besoin de transcriptions structurées, activez le formatage pour la normalisation inverse de texte. Pour l’expressivité TTS, ajoutez des balises vocales pour contrôler la prosodie.

Cas d’usage

  • Agents vocaux et assistants interactifs : Transcrivez la parole utilisateur en temps réel et injectez le texte résultant dans votre logique de dialogue ou de flux de travail.
  • Transcription en temps réel pour réunions ou appels de support : Utilisez la diarisation et les ID de locuteurs au niveau mot pour attribuer les parties de conversation au bon locuteur.
  • Outils d’accessibilité : Convertissez le langage parlé en texte structuré (y compris nombres, dates et devises) et supportez optionnellement plusieurs langues.
  • Workflows de podcasts et production audio : Générez des transcriptions à partir d’enregistrements longs (transcription par lots) et utilisez TTS pour reconvertir scripts ou texte structuré en audio.
  • Expériences audio interactives : Combinez TTS contrôlé (balises vocales pour emphase, pauses et indices expressifs) avec transcription pour supporter des interactions vocales bidirectionnelles.

FAQ

Quels endpoints sont disponibles pour la transcription et la génération vocale ?
Grok STT et Grok TTS proposent tous deux des endpoints REST pour les requêtes par lots et WebSocket pour un usage faible latence ou en temps réel.

Grok STT supporte-t-il l’identification des locuteurs ?
Oui. L’API inclut la diarisation des locuteurs et les ID de locuteurs au niveau mot pour l’audio préenregistré et en streaming temps réel.

Le formatage ou une sortie structurée est-il disponible pour les transcriptions ?
Oui. Avec formatage activé, Grok STT applique la normalisation inverse de texte pour convertir le langage parlé en sortie structurée pour nombres, dates et devises.

Combien de langues Grok STT supporte-t-il ?
La page indique un support pour plus de 25 langues et note que les langues peuvent être changées sans interruption.

Comment contrôler le style de livraison TTS ?
Grok TTS fournit des balises vocales (ex. [laugh], [sigh], [whisper], , et ) à inclure dans le texte pour contrôler prosodie et émotion.

Alternatives

  • APIs Speech-to-text (catégorie générale) : D’autres fournisseurs STT proposent une transcription REST/WebSocket avec options comme la diarisation et la ponctuation/formatage. Comparez-les selon la latence, la qualité de la diarisation et la gestion de la normalisation inverse de texte.
  • APIs Text-to-speech avec balisage/tags (catégorie générale) : De nombreuses APIs TTS supportent un balisage de type SSML ou personnalisé pour influencer la prosodie. Comparez l’expressivité des tags, les contrôles supportés et si vous avez besoin de REST vs génération WebSocket en temps réel.
  • Construction de pipelines audio personnalisés (catégorie générale) : Certaines équipes assemblent elles-mêmes des composants ASR et de formatage (transcription + normalisation séparées). Cela peut augmenter la complexité d’intégration mais offre plus de contrôle sur chaque étape.
  • Utilisation d’une plateforme vocale conversationnelle vs APIs autonomes : Au lieu d’endpoints STT/TTS autonomes, vous pouvez adopter des plateformes d’agents vocaux de bout en bout. Cela échange généralement la flexibilité des APIs autonomes contre un workflow plus intégré.