Grok Speech to Text and Text to Speech APIs
APIs da xAI para Grok Speech to Text (STT) e Text to Speech (TTS): conversão de áudio e texto com endpoints REST/WebSocket de baixa latência.
O que é Grok Speech to Text (STT) e Text to Speech (TTS)?
Grok Speech to Text (STT) e Grok Text to Speech (TTS) são APIs de áudio independentes da xAI para converter fala em texto e texto em fala. Elas foram projetadas para que desenvolvedores adicionem capacidades de voz às suas próprias aplicações usando endpoints REST e WebSocket.
O objetivo do Grok STT é produzir transcrições precisas com opções de saída estruturada. O Grok TTS foca em transformar texto em fala com entrega natural e expressiva, além de controle detalhado sobre prosódia por meio de tags de fala.
Principais Recursos
- Transcrição de alta precisão e baixa latência: Gere transcrições de arquivos de áudio grandes usando a API REST e transcreva fala em tempo real com a API WebSocket.
- Timestamps em nível de palavra e diarização de falantes: Inclui IDs de falantes em nível de palavra via diarização para separar e identificar falantes em áudio pré-gravado e em streaming.
- Suporte a multicanal: Transcreva arquivos de áudio multicanal com separação de falantes gerenciada pela mesma API.
- Normalização Inversa de Texto (com formatação ativada): Converte linguagem falada em saídas estruturadas e formatadas adequadamente para itens como números, datas e moedas (ex.: transformando “meu número de telefone é …” na forma formatada esperada).
- Reconhecimento de fala multilíngue: Suporta mais de 25 idiomas e permite alternância perfeita entre idiomas.
- Tags de fala para TTS expressivo: Use tags inline e de envoltório como [laugh], [sigh], [whisper],
, e para controlar a entrega. - Geração REST e WebSocket para TTS: Crie fala a partir de texto com REST para geração em lote e use WebSocket para saída de fala em tempo real.
Como Usar Grok Speech to Text (STT) e Text to Speech (TTS)
- Comece no console da API xAI e use os endpoints fornecidos para STT ou TTS.
- Para transcrição, escolha REST ao transcrever arquivos de áudio grandes e WebSocket para transcrição em tempo real com baixa latência.
- Para TTS, envie texto via REST para gerar fala, ou use WebSocket se precisar de saída de fala em tempo real.
- Se precisar de transcrições estruturadas, ative a formatação para usar normalização inversa de texto. Para expressividade em TTS, adicione tags de fala para controlar a prosódia.
Casos de Uso
- Agentes de voz e assistentes interativos: Transcreva fala do usuário em tempo real e alimente o texto resultante na lógica de diálogo ou fluxo de trabalho.
- Transcrição em tempo real para reuniões ou chamadas de suporte: Use diarização e IDs de falantes em nível de palavra para atribuir partes da conversa ao falante correto.
- Ferramentas de acessibilidade: Converta linguagem falada em texto estruturado adequadamente (incluindo números, datas e moeda) e suporte opcionalmente a múltiplos idiomas.
- Podcasts e fluxos de produção de áudio: Gere transcrições de gravações longas (transcrição em lote) e use TTS para transformar roteiros ou texto estruturado de volta em áudio.
- Experiências de áudio interativas: Combine TTS controlado (tags de fala para ênfase, pausas e pistas expressivas) com transcrição para suportar interações de voz bidirecionais.
Perguntas Frequentes
Quais endpoints estão disponíveis para transcrição e geração de fala?
Grok STT e Grok TTS oferecem endpoints REST para requisições em lote e endpoints WebSocket para uso de baixa latência ou em tempo real.
O Grok STT suporta identificação de falantes?
Sim. A API inclui diarização de falantes e IDs de falantes em nível de palavra para áudio pré-gravado e streaming em tempo real.
Formatação ou saída estruturada está disponível para transcrições?
Sim. Com formatação ativada, o Grok STT aplica Normalização Inversa de Texto para converter linguagem falada em saída estruturada para itens como números, datas e moedas.
Quantos idiomas o Grok STT suporta?
A página indica suporte a mais de 25 idiomas e observa que os idiomas podem ser alternados sem perder o ritmo.
Como posso controlar o estilo de entrega do TTS?
O Grok TTS fornece tags de fala (por exemplo, [laugh], [sigh], [whisper],
Alternativas
- APIs de speech-to-text (categoria geral): Outros provedores de STT oferecem transcrição REST/WebSocket com opções como diarização e pontuação/formatação. Compare-os com base em latência, qualidade da diarização e como lidam com normalização inversa de texto.
- APIs de text-to-speech com marcação/tags (categoria geral): Muitas APIs de TTS suportam marcação semelhante a SSML ou personalizada para influenciar a prosódia. Compare a expressividade das tags, controles suportados e se você precisa de REST vs geração em tempo real via WebSocket.
- Construção de pipelines de áudio personalizados (categoria geral): Algumas equipes podem montar componentes de ASR e formatação por conta própria (transcrição + normalização separadas). Isso pode aumentar a complexidade de integração, mas oferece mais controle sobre cada etapa.
- Plataforma de voz conversacional vs APIs standalone: Em vez de endpoints STT/TTS standalone, você pode adotar plataformas de agentes de voz end-to-end. Isso geralmente troca a flexibilidade das APIs standalone por um fluxo de trabalho mais integrado.
Alternativas
Sanota
Sanota transforma sua voz em texto claro e bonito para você capturar memórias e ideias com facilidade. Comece grátis.
Speech to Text Converter Online
Uma ferramenta online gratuita que converte ficheiros de áudio e vídeo em transcrições de texto precisas em mais de 45 idiomas. Suporta inúmeros formatos de ficheiro e não requer downloads ou registos.
MiniCPM-o 4.5
MiniCPM-o 4.5 é um modelo de IA multimodal altamente capaz, projetado para visão, fala e transmissão ao vivo full-duplex, oferecendo compreensão visual avançada, síntese de fala e capacidades interativas em tempo real, em uma arquitetura compacta de 9 bilhões de parâmetros.
Dictato
Dictato é um app de ditado por voz offline para macOS: transcreve no dispositivo e insere o texto em qualquer app. Suporta Whisper, Parakeet e Apple.
CAMB.AI
Transforme um único live stream em uma transmissão multilíngue com dublagem de áudio por IA em tempo real para YouTube, Twitch e X.
Tavus
Tavus desenvolve sistemas de IA em tempo real para interações face a face, com visão, audição e resposta, além de vídeo agentes e companheiros via APIs.