xAI ofrece APIs Grok Speech to Text y Text to Speech con endpoints REST/WebSocket de baja latencia, soporte multilingüe y funciones como diarización.
Gemini 3.1 Flash TTS de Google: modelo TTS que genera voz AI más natural y expresiva, con audio tags granulares y SynthID en 70+ idiomas.
Controles de seguridad y comportamiento configurables para ElevenAgents: guía respuestas de voz y bloquea salidas inseguras o fuera de política antes de llegar al usuario.
HeyGen API para generar, traducir y hacer lipsync en video con avatares y modelos TTS. Diseñada para flujos de producción a escala.
Lightning TTS v3, la API de texto a voz de Smallest.ai con baja latencia y multilingüe, incluye clonación de voz. Gana $10 en créditos.
Voxtral TTS es el modelo multilingüe de Mistral AI para convertir texto en voz natural y de baja latencia, con voces adaptables para agentes.
Gemini 3.1 Flash Live, modelo de audio y voz en tiempo real de Google para interacciones más naturales y fiables en Google y APIs de desarrolladores.
Convierte cualquier artículo en un episodio de podcast. Pega un enlace para escucharlo en tu app o suscríbete a un feed diario por temas.
Voizematic es software de agente de voz con IA para automatizar llamadas entrantes y salientes, reservar en Google Calendar y hacer seguimientos en 25+ idiomas.
Clipchamp AI Voice Over Generator es una herramienta online de texto a voz (TTS) para convertir guiones en locuciones realistas para videos.
Maestra es una plataforma de traducción de medios con IA que genera transcripciones, subtítulos y locuciones multilingües en tiempo real.
Inworld AI ofrece APIs en tiempo real de text-to-speech, speech-to-text y speech-to-speech, además de Router con selección y failover entre LLMs.
Fliki crea videos de IA y locuciones a partir de texto, ideas, PPT, blogs o URLs de producto, con soporte multilingüe y avatares. Empieza gratis.
WikiTrip para iPhone: guía de audio basada en Wikipedia que lee en voz AI artículos cercanos mientras caminas, conduces o viajas. Manos libres.
Synthesys.io: suite de contenido con IA para crear videos con avatares realistas, locuciones, doblaje a varios idiomas y generar imágenes para marketing.
Convierte un solo directo en un broadcast multilingüe con doblaje de audio con IA en tiempo real para YouTube, Twitch y X. CAMB.AI.
LOVO es un generador de voz con IA y TTS que crea locuciones realistas en 100+ idiomas, con editor de video online para sincronizar y subtítulos.
Herodot AI es una app de viajes con audioguías con IA y recorridos autoguiados: guía por fotos y navegación con mapas en tu móvil.
TADA (Text-Acoustic Dual Alignment) es el modelo de texto a voz open-source de Hume AI que sincroniza texto y audio uno a uno para una locución rápida y fiable.
Ondoku es un software TTS: pega texto, elige idioma y voz, escúchalo en la web y descárgalo como .mp3.