speech-core ist eine C++17 On-Device-Voice-Agent-Pipeline-Engine für VAD, Streaming- und Batch-Spracherkennung, Diarisierung und Text-to-Speech ohne Cloud-Inferenz.
Voiser.ai ist ein KI-Text-zu-Sprache- und Voiceover-Generator für natürlich klingende Sprecher in über 140 Sprachen.
Podio: News Podcast Maker ist eine KI-Audio-App für personalisierte tägliche Podcast-Streams mit News, Digests und Themenfolgen – hands-free auf iPhone und iPad.
Tico ist ein KI-Assistent für Windows: hört Ihre Sprachfragen, versteht, was auf dem Bildschirm ist, gibt Anleitung per Sprache und zeigt, wo Sie klicken.
Yeta AI übersetzt und synchronisiert öffentliche YouTube-Videos in Echtzeit mit KI-Stimmen in 10+ Sprachen. Gratis starten: 15 Min/Monat, ohne Karte.
Morph kombiniert E-Books und Hörbücher in einem synchronen Leseerlebnis: lesen, hören oder beides. Mit Morph AI für Fragen und Kapitel-Erklärungen.
FlowSpeech ist ein KI-Text-to-Speech-Tool, das Skripte in menschenähnlichen Audio-Output mit kontextbezogener Emotion und präziser Pausensteuerung umwandelt.
xAI Grok Speech to Text (STT) und Text to Speech (TTS) APIs für Audio- und Text-Umwandlung mit Low-Latency REST/WebSocket, multilingual inkl. Sprecher-Diarisierung.
Gemini 3.1 Flash TTS ist Googles Text-to-Speech-Modell für natürlichere, ausdrucksstärkere KI-Sprachausgabe in 70+ Sprachen mit SynthID-Wasserzeichen.
Konfigurierbare Safety- und Verhaltenscontrols für ElevenAgents: steuert Voice-AI-Antworten, blockt unsichere oder off-policy Ausgaben vor dem Nutzer.
HeyGen Developers: API-Plattform zum Generieren, Übersetzen und Lipsyncen von Videos mit Avataren und TTS-Modellen – für Produktion im großen Maßstab.
Lightning TTS v3 von Smallest.ai: Text-to-Speech API für Low-Latency, mehrsprachige Sprache & Voice-Cloning für Voice Agents. 10$ Gratis-Credits.
Voxtral TTS von Mistral AI: mehrsprachiges Text-to-Speech-Modell für natürliche, sprachagententaugliche Ausgabe mit geringer Latenz und anpassbaren Sprecherstimmen.
Gemini 3.1 Flash Live von Google ist das Echtzeit-Audio- und Sprachmodell für natürlichere, zuverlässige Voice-Interaktionen in Google Produkten und APIs.
Wandle Artikel in Podcast-Episoden um: Link einfügen und im Podcast-Player anhören oder einen täglichen Feed mit kuratierten Themen abonnieren.
Voizematic ist KI-Voice-Agent-Software für Telefonautomatisierung mit unbegrenzten Inbound/Outbound-Calls, Google-Kalender-Terminbuchung und Follow-ups in 25+ Sprachen.
Clipchamp AI Voice Over Generator: Online Text-zu-Sprache zur Erstellung realistischer Sprecher für Videos—ohne App-Download, mit Mehrsprachen, Tempo & Emotion.
Maestra ist eine AI-Medienübersetzungs-Plattform: Transkripte, Untertitel und mehrsprachige Voiceovers für Video & Audio – auch in Echtzeit.
Inworld AI bietet Echtzeit-Text-to-Speech, Speech-to-Text und Speech-to-Speech APIs sowie einen Router für Modell-Auswahl und Failover bei Konversations-Apps.
Fliki erstellt KI-Videos und Voiceovers aus Text, Ideen, PPTs, Blogs oder Produkt-URLs – mehrsprachig mit KI-Avataren. Gratis starten, keine Kreditkarte nötig.