UStackUStack
Grok Speech to Text and Text to Speech APIs icon

Grok Speech to Text and Text to Speech APIs

APIs da xAI para Grok Speech to Text (STT) e Text to Speech (TTS): conversão de áudio e texto com endpoints REST/WebSocket de baixa latência.

Grok Speech to Text and Text to Speech APIs

O que é Grok Speech to Text (STT) e Text to Speech (TTS)?

Grok Speech to Text (STT) e Grok Text to Speech (TTS) são APIs de áudio independentes da xAI para converter fala em texto e texto em fala. Elas foram projetadas para que desenvolvedores adicionem capacidades de voz às suas próprias aplicações usando endpoints REST e WebSocket.

O objetivo do Grok STT é produzir transcrições precisas com opções de saída estruturada. O Grok TTS foca em transformar texto em fala com entrega natural e expressiva, além de controle detalhado sobre prosódia por meio de tags de fala.

Principais Recursos

  • Transcrição de alta precisão e baixa latência: Gere transcrições de arquivos de áudio grandes usando a API REST e transcreva fala em tempo real com a API WebSocket.
  • Timestamps em nível de palavra e diarização de falantes: Inclui IDs de falantes em nível de palavra via diarização para separar e identificar falantes em áudio pré-gravado e em streaming.
  • Suporte a multicanal: Transcreva arquivos de áudio multicanal com separação de falantes gerenciada pela mesma API.
  • Normalização Inversa de Texto (com formatação ativada): Converte linguagem falada em saídas estruturadas e formatadas adequadamente para itens como números, datas e moedas (ex.: transformando “meu número de telefone é …” na forma formatada esperada).
  • Reconhecimento de fala multilíngue: Suporta mais de 25 idiomas e permite alternância perfeita entre idiomas.
  • Tags de fala para TTS expressivo: Use tags inline e de envoltório como [laugh], [sigh], [whisper], , e para controlar a entrega.
  • Geração REST e WebSocket para TTS: Crie fala a partir de texto com REST para geração em lote e use WebSocket para saída de fala em tempo real.

Como Usar Grok Speech to Text (STT) e Text to Speech (TTS)

  1. Comece no console da API xAI e use os endpoints fornecidos para STT ou TTS.
  2. Para transcrição, escolha REST ao transcrever arquivos de áudio grandes e WebSocket para transcrição em tempo real com baixa latência.
  3. Para TTS, envie texto via REST para gerar fala, ou use WebSocket se precisar de saída de fala em tempo real.
  4. Se precisar de transcrições estruturadas, ative a formatação para usar normalização inversa de texto. Para expressividade em TTS, adicione tags de fala para controlar a prosódia.

Casos de Uso

  • Agentes de voz e assistentes interativos: Transcreva fala do usuário em tempo real e alimente o texto resultante na lógica de diálogo ou fluxo de trabalho.
  • Transcrição em tempo real para reuniões ou chamadas de suporte: Use diarização e IDs de falantes em nível de palavra para atribuir partes da conversa ao falante correto.
  • Ferramentas de acessibilidade: Converta linguagem falada em texto estruturado adequadamente (incluindo números, datas e moeda) e suporte opcionalmente a múltiplos idiomas.
  • Podcasts e fluxos de produção de áudio: Gere transcrições de gravações longas (transcrição em lote) e use TTS para transformar roteiros ou texto estruturado de volta em áudio.
  • Experiências de áudio interativas: Combine TTS controlado (tags de fala para ênfase, pausas e pistas expressivas) com transcrição para suportar interações de voz bidirecionais.

Perguntas Frequentes

Quais endpoints estão disponíveis para transcrição e geração de fala?
Grok STT e Grok TTS oferecem endpoints REST para requisições em lote e endpoints WebSocket para uso de baixa latência ou em tempo real.

O Grok STT suporta identificação de falantes?
Sim. A API inclui diarização de falantes e IDs de falantes em nível de palavra para áudio pré-gravado e streaming em tempo real.

Formatação ou saída estruturada está disponível para transcrições?
Sim. Com formatação ativada, o Grok STT aplica Normalização Inversa de Texto para converter linguagem falada em saída estruturada para itens como números, datas e moedas.

Quantos idiomas o Grok STT suporta?
A página indica suporte a mais de 25 idiomas e observa que os idiomas podem ser alternados sem perder o ritmo.

Como posso controlar o estilo de entrega do TTS?
O Grok TTS fornece tags de fala (por exemplo, [laugh], [sigh], [whisper], , e ) que você pode incluir no texto para controlar prosódia e emoção.

Alternativas

  • APIs de speech-to-text (categoria geral): Outros provedores de STT oferecem transcrição REST/WebSocket com opções como diarização e pontuação/formatação. Compare-os com base em latência, qualidade da diarização e como lidam com normalização inversa de texto.
  • APIs de text-to-speech com marcação/tags (categoria geral): Muitas APIs de TTS suportam marcação semelhante a SSML ou personalizada para influenciar a prosódia. Compare a expressividade das tags, controles suportados e se você precisa de REST vs geração em tempo real via WebSocket.
  • Construção de pipelines de áudio personalizados (categoria geral): Algumas equipes podem montar componentes de ASR e formatação por conta própria (transcrição + normalização separadas). Isso pode aumentar a complexidade de integração, mas oferece mais controle sobre cada etapa.
  • Plataforma de voz conversacional vs APIs standalone: Em vez de endpoints STT/TTS standalone, você pode adotar plataformas de agentes de voz end-to-end. Isso geralmente troca a flexibilidade das APIs standalone por um fluxo de trabalho mais integrado.
Grok Speech to Text and Text to Speech APIs | UStack