APIs da xAI para Grok Speech to Text (STT) e Text to Speech (TTS): conversão de áudio e texto com endpoints REST/WebSocket de baixa latência.
Gemini 3.1 Flash TTS é o modelo TTS do Google que cria fala de IA mais natural e expressiva, com tags de áudio e SynthID em 70+ idiomas.
Controles de segurança e comportamento configuráveis para ElevenAgents, orientam respostas de AI por voz e bloqueiam saídas inseguras ou fora da política.
HeyGen Developers: plataforma API para gerar, traduzir e fazer lipsync de vídeos com avatares e TTS, pronta para fluxos de produção em escala.
Lightning TTS v3 é a API de texto-para-fala da Smallest.ai com baixa latência, fala multilíngue e voice cloning, para agentes e áudio.
Voxtral TTS é o modelo de texto-para-voz multilíngue da Mistral AI, com baixa latência e vozes adaptáveis para fluxos de voice agents.
Gemini 3.1 Flash Live é o modelo de áudio e voz em tempo real da Google para interações mais naturais e confiáveis em produtos e APIs.
Transforme qualquer artigo em um episódio de podcast: cole o link no listen. e escute no app ou assine um feed diário por tópicos.
Voizematic é software de agente de voz com IA para automatizar ligações ilimitadas, agendamentos no Google Calendar e follow-ups em 25+ idiomas.
Clipchamp AI Voice Over Generator é uma ferramenta online de texto para fala (TTS) para criar narrações realistas em vídeo, sem baixar o app.
Maestra é uma plataforma de tradução de mídia com IA que gera transcrições, legendas e voiceovers multilíngues, incluindo tradução em tempo real e legendas ao vivo.
Inworld AI oferece APIs em tempo real de texto-para-voz, voz-para-texto e voz-para-voz, além do Router com failover entre vários LLMs.
Crie vídeos de IA e voiceovers a partir de texto, ideias, PPTs, blogs ou URLs de produtos com suporte multilíngue e avatares. Comece grátis, sem cartão.
WikiTrip é um guia de áudio de viagem com base na localização para iPhone, que lê artigos da Wikipédia por voz de IA enquanto você se desloca.
Synthesys.io é uma suíte de conteúdo com IA para criar vídeos com avatares realistas e narração, dublar em vários idiomas e gerar imagens para marketing.
Transforme um único live stream em uma transmissão multilíngue com dublagem de áudio por IA em tempo real para YouTube, Twitch e X.
LOVO é um gerador de voz por IA e TTS que cria narrações realistas em 100+ idiomas, com editor de vídeo online para sincronizar e legendas.
Herodot AI cria audioguias com IA e tours autoguiados pelo mundo: histórias guiadas por fotos e navegação por mapa no seu celular.
TADA (Text-Acoustic Dual Alignment) é um modelo open-source de text-to-speech da Hume AI que sincroniza texto e áudio um-para-um.
Ondoku é um software TTS que lê o texto colado com a voz escolhida e permite baixar em .mp3. Suporta vários idiomas e vozes.