xAI offre API Grok Speech to Text (STT) e Text to Speech (TTS) con endpoint REST/WebSocket a bassa latenza, supporto multilingue, diarizzazione.
Gemini 3.1 Flash TTS di Google: modello TTS che genera voce AI più naturale ed espressiva, con audio tag granulari e watermark SynthID per 70+ lingue.
Controlli di sicurezza e comportamento configurabili per ElevenAgents: guidano le risposte AI vocali e bloccano contenuti non sicuri o fuori policy.
HeyGen Developers: piattaforma API per generare, tradurre e lipsync video con avatar e TTS. Progettata per workflow di produzione scalabili.
Lightning TTS v3 di Smallest.ai: API TTS a bassa latenza con parlato multilingue e voice cloning per voice agent e audio di produzione. $10 crediti gratis.
Voxtral TTS di Mistral AI: modello TTS multilingue per generazione vocale naturale a bassa latenza, con voci adattabili per voice agent.
Gemini 3.1 Flash Live di Google è il modello audio e voce in tempo reale per interazioni vocali più naturali e affidabili su prodotti e API.
Trasforma qualsiasi articolo in un episodio podcast: incolla un link per ascoltarlo nella tua app o iscriviti a un feed giornaliero per argomento.
Voizematic è un software per agenti vocali AI: automatizza chiamate in entrata e in uscita, prenotazioni su Google Calendar e follow-up in 25+ lingue.
Clipchamp AI Voice Over Generator è uno strumento online testo-a-voce per creare una voce fuori campo realistica per i video. Scegli lingue, velocità ed emozioni.
Maestra è una piattaforma di traduzione media AI: genera trascrizioni, sottotitoli e voiceover multilingue, inclusi live captions e traduzione in tempo reale.
Inworld AI offre API real-time text-to-speech, speech-to-text e speech-to-speech, più un Router per selezione e failover tra LLM.
Fliki crea video AI e voiceover da testo, idee, PPT, blog o URL prodotto, con supporto multilingue e avatar AI. Piano free senza carta.
WikiTrip è una guida audio di viaggio basata su posizione per iPhone: legge ad alta voce articoli di Wikipedia nelle vicinanze in una voce AI.
Synthesys.io è una suite AI per creare video con avatar realistici, voice-over, doppiaggio in più lingue e immagini per contenuti marketing.
CAMB.AI trasforma un singolo live in una trasmissione multilingue con doppiaggio audio AI in tempo reale per YouTube, Twitch e X.
LOVO è un generatore di voci AI e TTS con editor video online per sincronizzare audio, video e sottotitoli. Voci realistiche in 100+ lingue.
Herodot AI crea audioguide AI e tour self-guided in tutto il mondo: racconti da foto e navigazione con mappe sul tuo telefono.
TADA (Text-Acoustic Dual Alignment) è il modello open-source di Hume AI per text-to-speech: sincronizza testo e audio one-to-one.
Ondoku è un software TTS: incolla il testo, scegli voce e lingua, ascolta online e scarica l’audio in .mp3.