Grok Speech to Text and Text to Speech APIs

¿Qué es Grok Speech to Text (STT) y Text to Speech (TTS)?

Grok Speech to Text (STT) y Grok Text to Speech (TTS) son APIs de audio independientes de xAI para convertir voz en texto y texto en voz. Están diseñadas para que los desarrolladores agreguen capacidades de voz a sus aplicaciones usando endpoints REST y WebSocket.

El objetivo de Grok STT es producir transcripciones precisas con opciones de salida estructurada. Grok TTS se centra en convertir texto en voz con entrega natural y expresiva, y control detallado de la prosodia mediante etiquetas de voz.

Características principales

Transcripción de alta precisión y baja latencia: Genera transcripciones de archivos de audio grandes usando la API REST y transcribe voz en tiempo real con la API WebSocket.
Marcas de tiempo a nivel de palabra y diarización de hablantes: Incluye IDs de hablante a nivel de palabra mediante diarización para separar e identificar hablantes en audio pregrabado y en streaming.
Soporte multicanal: Transcribe archivos de audio multicanal con separación de hablantes manejada por la misma API.
Normalización inversa de texto (con formato activado): Convierte lenguaje hablado en salidas estructuradas y correctamente formateadas para elementos como números, fechas y monedas (p. ej., transformando “mi número de teléfono es …” en la forma formateada esperada).
Reconocimiento de voz multilingüe: Soporta más de 25 idiomas y permite cambiar de idioma sin problemas.
Etiquetas de voz para TTS expresivo: Usa etiquetas en línea y de envoltura como [laugh], [sigh], [whisper], , y para controlar la entrega.
Generación REST y WebSocket para TTS: Crea voz a partir de texto con REST para generación por lotes y usa WebSocket para salida de voz en tiempo real.

Cómo usar Grok Speech to Text (STT) y Text to Speech (TTS)

Comienza en la consola de la API de xAI y usa los endpoints proporcionados para STT o TTS.
Para transcripción, elige REST para archivos de audio grandes y WebSocket para transcripción en tiempo real de baja latencia.
Para TTS, envía texto vía REST para generar voz, o usa WebSocket si necesitas salida de voz en tiempo real.
Si requieres transcripciones estructuradas, activa el formato para usar normalización inversa de texto. Para expresividad en TTS, agrega etiquetas de voz para controlar la prosodia.

Casos de uso

Agentes de voz y asistentes interactivos: Transcribe voz de usuario en tiempo real y pasa el texto resultante a tu lógica de diálogo o flujo de trabajo.
Transcripción en tiempo real para reuniones o llamadas de soporte: Usa diarización e IDs de hablante a nivel de palabra para atribuir partes de la conversación al hablante correcto.
Herramientas de accesibilidad: Convierte lenguaje hablado en texto estructurado correctamente (incluyendo números, fechas y moneda) y soporta opcionalmente múltiples idiomas.
Flujos de trabajo de podcasts y producción de audio: Genera transcripciones de grabaciones largas (transcripción por lotes) y usa TTS para convertir guiones o texto estructurado de vuelta en audio.
Experiencias de audio interactivas: Combina TTS controlado (etiquetas de voz para énfasis, pausas y señales expresivas) con transcripción para soportar interacciones de voz bidireccionales.

Preguntas frecuentes

¿Qué endpoints están disponibles para transcripción y generación de voz?
Grok STT y Grok TTS ofrecen endpoints REST para solicitudes por lotes y endpoints WebSocket para uso de baja latencia o en tiempo real.

¿Soporta Grok STT la identificación de hablantes?
Sí. La API incluye diarización de hablantes e IDs de hablante a nivel de palabra para audio pregrabado y streaming en tiempo real.

¿Está disponible el formato o salida estructurada para transcripciones?
Sí. Con formato activado, Grok STT aplica normalización inversa de texto para convertir lenguaje hablado en salida estructurada para elementos como números, fechas y monedas.

¿Cuántos idiomas soporta Grok STT?
La página indica soporte para más de 25 idiomas y menciona que se pueden cambiar sin perder el ritmo.

¿Cómo puedo controlar el estilo de entrega de TTS?
Grok TTS proporciona etiquetas de voz (por ejemplo [laugh], [sigh], [whisper], , y ) que puedes incluir en el texto para controlar prosodia y emoción.

Alternativas

APIs Speech-to-text (categoría general): Otros proveedores STT ofrecen transcripción REST/WebSocket con opciones como diarización y puntuación/formato. Compáralos según latencia, calidad de diarización y manejo de normalización inversa de texto.
APIs Text-to-speech con markup/etiquetas (categoría general): Muchas APIs TTS admiten etiquetado similar a SSML o personalizado para influir en la prosodia. Compara expresividad de etiquetas, controles compatibles y si necesitas REST frente a generación WebSocket en tiempo real.
Construir pipelines de audio personalizados (categoría general): Algunos equipos pueden ensamblar componentes ASR y formateo por sí mismos (transcripción + normalización separadas). Esto puede aumentar la complejidad de integración, pero ofrece más control sobre cada paso.
Usar una plataforma de voz conversacional vs APIs independientes: En lugar de endpoints STT/TTS independientes, puedes adoptar plataformas de agentes de voz de extremo a extremo. Esto suele intercambiar la flexibilidad de APIs independientes por un flujo de trabajo más integrado.

Grok Speech to Text and Text to Speech APIs

¿Qué es Grok Speech to Text (STT) y Text to Speech (TTS)?

Características principales

Cómo usar Grok Speech to Text (STT) y Text to Speech (TTS)

Casos de uso

Preguntas frecuentes

Alternativas

Alternativas

Sanota

Speech to Text Converter Online

MiniCPM-o 4.5

Dictato

CAMB.AI

Tavus