UStackUStack
Grok Speech to Text and Text to Speech APIs icon

Grok Speech to Text and Text to Speech APIs

xAI Grok Speech to Text (STT) und Text to Speech (TTS) APIs für Audio- und Text-Umwandlung mit Low-Latency REST/WebSocket, multilingual inkl. Sprecher-Diarisierung.

Grok Speech to Text and Text to Speech APIs

Was ist Grok Speech to Text (STT) und Text to Speech (TTS)?

Grok Speech to Text (STT) und Grok Text to Speech (TTS) sind eigenständige Audio-APIs von xAI zur Umwandlung von Sprache in Text und Text in Sprache. Sie sind so konzipiert, dass Entwickler Sprachfunktionen in ihre eigenen Anwendungen integrieren können – über REST- und WebSocket-Endpunkte.

Das Ziel von Grok STT ist die Erstellung präziser Transkripte mit strukturierten Ausgabeoptionen. Grok TTS konzentriert sich darauf, Text in natürliche, ausdrucksstarke Sprache umzuwandeln, mit feingranularer Kontrolle über Prosodie durch Speech-Tags.

Wichtige Funktionen

  • Hochpräzise, latenzarme Transkription: Erzeugen Sie Transkripte aus großen Audiodateien mit der REST-API oder transkribieren Sie Sprache in Echtzeit mit der WebSocket-API.
  • Wortgenaue Zeitstempel und Sprecherdiarisation: Enthält sprecherspezifische IDs auf Wortebene via Diarisation, um Sprecher in voraufgezeichnetem und Streaming-Audio zu trennen und zu identifizieren.
  • Mehrkanalunterstützung: Transkribieren Sie Mehrkanal-Audiodateien mit Sprechertrennung über dieselbe API.
  • Inverse Text-Normalisierung (bei aktivierter Formatierung): Wandelt gesprochene Sprache in strukturierte, korrekt formatierte Ausgaben um, z. B. für Zahlen, Daten und Währungen (z. B. „meine Telefonnummer ist …“ in die erwartete Formatierung).
  • Mehrsprachige Spracherkennung: Unterstützt über 25 Sprachen und ermöglicht nahtlosen Wechsel zwischen Sprachen.
  • Speech-Tags für ausdrucksstarkes TTS: Verwenden Sie Inline- und umschließende Speech-Tags wie [laugh], [sigh], [whisper], , und , um die Aussprache zu steuern.
  • REST- und WebSocket-Generierung für TTS: Erzeugen Sie Sprache aus Text mit REST für Batch-Generierung oder nutzen Sie WebSocket für Echtzeit-Sprachausgabe.

So verwenden Sie Grok Speech to Text (STT) und Text to Speech (TTS)

  1. Starten Sie mit der xAI-API-Konsole und nutzen Sie die bereitgestellten Endpunkte für STT oder TTS.
  2. Für Transkription: Wählen Sie REST für große Audiodateien oder WebSocket für latenzarme, Echtzeit-Transkription.
  3. Für TTS: Senden Sie Text via REST zur Sprachgenerierung oder verwenden Sie WebSocket für Echtzeit-Sprachausgabe.
  4. Für strukturierte Transkripte aktivieren Sie Formatierung zur Nutzung der inversen Text-Normalisierung. Für ausdrucksstarkes TTS fügen Sie Speech-Tags hinzu, um Prosodie zu steuern.

Anwendungsfälle

  • Sprachagenten und interaktive Assistenten: Transkribieren Sie Benutzerrede in Echtzeit und leiten Sie den resultierenden Text an Ihre Dialog- oder Workflow-Logik weiter.
  • Echtzeit-Transkription für Meetings oder Support-Anrufe: Nutzen Sie Diarisation und wortgenaue Sprecher-IDs, um Gesprächsteile dem richtigen Sprecher zuzuordnen.
  • Barrierefreiheits-Tools: Wandeln Sie gesprochene Sprache in strukturierten Text um (inkl. Zahlen, Daten und Währung) und unterstützen Sie optional mehrere Sprachen.
  • Podcasts und Audio-Produktionsworkflows: Erzeugen Sie Transkripte aus längeren Aufnahmen (Batch-Transkription) und nutzen Sie TTS, um Skripte oder strukturierten Text zurück in Audio umzuwandeln.
  • Interaktive Audio-Erlebnisse: Kombinieren Sie gesteuertes TTS (Speech-Tags für Betonung, Pausen und expressive Hinweise) mit Transkription für bidirektionale Sprachinteraktionen.

FAQ

Welche Endpunkte gibt es für Transkription und Sprachgenerierung?
Grok STT und Grok TTS bieten REST-Endpunkte für Batch-Anfragen und WebSocket-Endpunkte für latenzarme oder Echtzeit-Nutzung.

Unterstützt Grok STT Sprecheridentifikation?
Ja. Die API enthält Sprecherdiarisation und wortgenaue Sprecher-IDs für voraufgezeichnete und Echtzeit-Streaming-Audio.

Gibt es Formatierung oder strukturierte Ausgabe für Transkripte?
Ja. Bei aktivierter Formatierung wendet Grok STT Inverse Text-Normalisierung an, um gesprochene Sprache in strukturierte Ausgaben für Zahlen, Daten und Währungen umzuwandeln.

Wie viele Sprachen unterstützt Grok STT?
Die Seite gibt Unterstützung für über 25 Sprachen an und betont, dass Sprachen nahtlos gewechselt werden können.

Wie kann ich den TTS-Ausgabestil steuern?
Grok TTS bietet Speech-Tags (z. B. [laugh], [sigh], [whisper], , und ), die Sie im Text einfügen können, um Prosodie und Emotion zu kontrollieren.

Alternativen

  • Speech-to-Text-APIs (allgemeine Kategorie): Andere STT-Anbieter bieten REST/WebSocket-Transkription mit Optionen wie Diarisierung und Zeichensetzung/Formatierung. Vergleichen Sie sie hinsichtlich Latenz, Diarisierungsqualität und Umgang mit inverser Textnormalisierung.
  • Text-to-Speech-APIs mit Markup/Tags (allgemeine Kategorie): Viele TTS-APIs unterstützen SSML-ähnliche oder benutzerdefinierte Tags zur Beeinflussung der Prosodie. Vergleichen Sie Tag-Ausdrucksstärke, unterstützte Steuerungen und ob REST vs. Echtzeit-WebSocket-Generierung benötigt wird.
  • Aufbau eigener Audio-Pipelines (allgemeine Kategorie): Manche Teams setzen ASR- und Formatierungskomponenten selbst zusammen (separate Transkription + Normalisierung). Dies erhöht die Integrationskomplexität, bietet aber mehr Kontrolle über jeden Schritt.
  • Konversationelle Voice-Plattform vs. eigenständige APIs: Statt eigenständiger STT/TTS-Endpunkte können Sie End-to-End-Voice-Agent-Plattformen nutzen. Dies tauscht die Flexibilität eigenständiger APIs gegen einen integrierteren Workflow ein.
Grok Speech to Text and Text to Speech APIs | UStack