UStackUStack
Grok Speech to Text and Text to Speech APIs icon

Grok Speech to Text and Text to Speech APIs

xAI offre API Grok Speech to Text (STT) e Text to Speech (TTS) con endpoint REST/WebSocket a bassa latenza, supporto multilingue, diarizzazione.

Grok Speech to Text and Text to Speech APIs

Cos'è Grok Speech to Text (STT) e Text to Speech (TTS)?

Grok Speech to Text (STT) e Grok Text to Speech (TTS) sono API audio standalone di xAI per convertire parlato in testo e testo in parlato. Sono progettate per consentire agli sviluppatori di aggiungere funzionalità vocali alle proprie applicazioni tramite endpoint REST e WebSocket.

L'obiettivo di Grok STT è produrre trascrizioni accurate con opzioni di output strutturato. Grok TTS si concentra sulla conversione del testo in parlato con consegna naturale ed espressiva e controllo granulare della prosodia tramite speech tag.

Caratteristiche Principali

  • Trascrizione ad alta precisione e bassa latenza: Genera trascrizioni da file audio grandi con l'API REST e trascrivi il parlato in tempo reale con l'API WebSocket.
  • Timestamp a livello di parola e diarizzazione speaker: Include ID speaker a livello di parola tramite diarizzazione per separare e identificare i parlanti sia in audio preregistrato che in streaming.
  • Supporto multicanale: Trascrivi file audio multicanale con separazione speaker gestita dalla stessa API.
  • Inverse Text Normalization (con formattazione abilitata): Converte il linguaggio parlato in output strutturati e formattati per elementi come numeri, date e valute (es. trasformando “il mio numero di telefono è …” nella forma formattata attesa).
  • Riconoscimento vocale multilingue: Supporta oltre 25 lingue e consente il passaggio fluido tra lingue.
  • Speech tag per TTS espressivo: Usa speech tag inline e di wrapping come [laugh], [sigh], [whisper], , e per controllare la consegna.
  • Generazione REST e WebSocket per TTS: Crea parlato dal testo con REST per generazione batch e usa WebSocket per output parlato in tempo reale.

Come Usare Grok Speech to Text (STT) e Text to Speech (TTS)

  1. Inizia dalla console API xAI e usa gli endpoint forniti per STT o TTS.
  2. Per la trascrizione, scegli REST per file audio grandi e WebSocket per trascrizione in tempo reale a bassa latenza.
  3. Per TTS, invia testo via REST per generare parlato, o usa WebSocket per output parlato in tempo reale.
  4. Se richiedi trascrizioni strutturate, abilita la formattazione per usare l'inverse text normalization. Per espressività TTS, aggiungi speech tag per controllare la prosodia.

Casi d'Uso

  • Agenti vocali e assistenti interattivi: Trascrivi il parlato utente in tempo reale e immetti il testo risultante nella logica di dialogo o workflow.
  • Trascrizione in tempo reale per riunioni o chiamate di supporto: Usa diarizzazione e ID speaker a livello di parola per attribuire parti della conversazione al parlante corretto.
  • Strumenti di accessibilità: Converti linguaggio parlato in testo strutturato (inclusi numeri, date e valuta) e opzionalmente supporta più lingue.
  • Podcast e workflow di produzione audio: Genera trascrizioni da registrazioni lunghe (trascrizione batch) e usa TTS per convertire script o testo strutturato in audio.
  • Esperienze audio interattive: Combina TTS controllato (speech tag per enfasi, pause e indizi espressivi) con trascrizione per supportare interazioni vocali bidirezionali.

FAQ

Quali endpoint sono disponibili per trascrizione e generazione vocale?
Grok STT e Grok TTS supportano entrambi endpoint REST per richieste batch e endpoint WebSocket per uso a bassa latenza o in tempo reale.

Grok STT supporta l'identificazione speaker?
Sì. L'API include diarizzazione speaker e ID speaker a livello di parola per audio preregistrato e streaming in tempo reale.

La formattazione o output strutturato è disponibile per le trascrizioni?
Sì. Con formattazione abilitata, Grok STT applica Inverse Text Normalization per convertire linguaggio parlato in output strutturato per elementi come numeri, date e valute.

Quante lingue supporta Grok STT?
La pagina indica supporto per oltre 25 lingue e nota che le lingue possono essere cambiate senza intoppi.

Come posso controllare lo stile di consegna TTS?
Grok TTS fornisce speech tag (ad esempio [laugh], [sigh], [whisper], , e ) da includere nel testo per controllare prosodia ed emozione.

Alternative

  • API Speech-to-text (categoria generale): Altri fornitori STT offrono trascrizione REST/WebSocket con opzioni come diarizzazione e punteggiatura/formattazione. Confrontali in base a latenza, qualità della diarizzazione e gestione della normalizzazione inversa del testo.
  • API Text-to-speech con markup/tag (categoria generale): Molte API TTS supportano tagging simile a SSML o personalizzato per influenzare la prosodia. Confronta l'espressività dei tag, i controlli supportati e se necessiti di REST vs generazione real-time WebSocket.
  • Costruzione di pipeline audio personalizzate (categoria generale): Alcuni team assemblano componenti ASR e formattazione autonomamente (trascrizione separata + normalizzazione). Questo può aumentare la complessità di integrazione ma offrire maggiore controllo su ogni fase.
  • Utilizzo di una piattaforma vocale conversazionale vs API standalone: Invece di endpoint STT/TTS standalone, puoi adottare piattaforme agent vocali end-to-end. Questo scambia tipicamente la flessibilità delle API standalone per un workflow più integrato.
Grok Speech to Text and Text to Speech APIs | UStack