xAI Grok Speech to Text (STT) und Text to Speech (TTS) APIs für Audio- und Text-Umwandlung mit Low-Latency REST/WebSocket, multilingual inkl. Sprecher-Diarisierung.
Gemini 3.1 Flash TTS ist Googles Text-to-Speech-Modell für natürlichere, ausdrucksstärkere KI-Sprachausgabe in 70+ Sprachen mit SynthID-Wasserzeichen.
Konfigurierbare Safety- und Verhaltenscontrols für ElevenAgents: steuert Voice-AI-Antworten, blockt unsichere oder off-policy Ausgaben vor dem Nutzer.
HeyGen Developers: API-Plattform zum Generieren, Übersetzen und Lipsyncen von Videos mit Avataren und TTS-Modellen – für Produktion im großen Maßstab.
Lightning TTS v3 von Smallest.ai: Text-to-Speech API für Low-Latency, mehrsprachige Sprache & Voice-Cloning für Voice Agents. 10$ Gratis-Credits.
Voxtral TTS von Mistral AI: mehrsprachiges Text-to-Speech-Modell für natürliche, sprachagententaugliche Ausgabe mit geringer Latenz und anpassbaren Sprecherstimmen.
Gemini 3.1 Flash Live von Google ist das Echtzeit-Audio- und Sprachmodell für natürlichere, zuverlässige Voice-Interaktionen in Google Produkten und APIs.
Wandle Artikel in Podcast-Episoden um: Link einfügen und im Podcast-Player anhören oder einen täglichen Feed mit kuratierten Themen abonnieren.
Voizematic ist KI-Voice-Agent-Software für Telefonautomatisierung mit unbegrenzten Inbound/Outbound-Calls, Google-Kalender-Terminbuchung und Follow-ups in 25+ Sprachen.
Clipchamp AI Voice Over Generator: Online Text-zu-Sprache zur Erstellung realistischer Sprecher für Videos—ohne App-Download, mit Mehrsprachen, Tempo & Emotion.
Maestra ist eine AI-Medienübersetzungs-Plattform: Transkripte, Untertitel und mehrsprachige Voiceovers für Video & Audio – auch in Echtzeit.
Inworld AI bietet Echtzeit-Text-to-Speech, Speech-to-Text und Speech-to-Speech APIs sowie einen Router für Modell-Auswahl und Failover bei Konversations-Apps.
Fliki erstellt KI-Videos und Voiceovers aus Text, Ideen, PPTs, Blogs oder Produkt-URLs – mehrsprachig mit KI-Avataren. Gratis starten, keine Kreditkarte nötig.
WikiTrip ist ein standortbasierter Reise-Audioguide fürs iPhone: Nearby Wikipedia-Artikel per KI-Stimme vorlesen – hands-free beim Gehen, Fahren & Fahren.
Synthesys.io ist eine AI-Content-Suite für Avatar-Videogenerierung mit Voice-Over, Video-Dubbing in mehrere Sprachen und passenden Bildern.
Verwandle einen Live-Stream in einen mehrsprachigen Broadcast mit Echtzeit-KI-Audio-Dubbing für Ziele wie YouTube, Twitch und X – ohne Prozesswechsel.
LOVO ist ein KI-Voice-Generator und Text-to-Speech-Tool: realistische Voiceovers in 100+ Sprachen, plus Online-Videoeditor für Sync und Untertitel.
Herodot AI: KI-Audioguides & selbstgeführte Touren weltweit. Per Foto-Storytelling und Karten-Navigation direkt auf dem Smartphone entdecken.
TADA (Text-Acoustic Dual Alignment) von Hume AI: Open-Source-Text-to-Speech-Modell mit 1:1 Synchronisierung von Text und Audio für schnelle, zuverlässige Sprache.
Ondoku ist eine TTS-Software: Text einfügen, mit gewählter Stimme vorlesen lassen und als .mp3 herunterladen. Mit Mehrsprach- und Voice-Optionen.