AssemblyAI Voice Agent API
Crea voice agent con AssemblyAI Voice Agent API: fai streaming dell’audio e ricevi output in tempo reale, con trascrizioni configurabili e speaker roles.
Cos'è AssemblyAI Voice Agent API?
AssemblyAI Voice Agent API è un'API per creare voice agent che possono trasmettere audio in un'applicazione e ricevere output correlati alla voce in tempo reale. La pagina presenta l'API come un modo per aggiungere completamento di attività e comprensione del parlato a un'esperienza vocale, gestendo le parti chiave dell'elaborazione vocale così gli sviluppatori possono concentrarsi sulla logica del prodotto dell'agente.
Gli esempi forniti indicano che l'API può produrre trascrizioni con diversi stili di prompting (ad es., catturando dettagli di valutazione della storia clinica, idoneità per analisi conversazionali e nomi propri), e può essere configurata per restituire strutture di trascrizione più ricche come tag audio, dati di disfluenze verbatim e etichettatura dei ruoli dei parlanti.
Caratteristiche Principali
- Streaming audio in tempo reale (input in, output out): Progettata per “trasmetti audio in, ricevi audio indietro”, supporta flussi di lavoro voice-agent in cui l'agente risponde durante l'interazione.
- Trascrizione accurata per entità critiche per il compito: L'esempio di testo evidenzia la gestione corretta di elementi come email, numeri di telefono, ID ordini e nomi, comunemente necessari per il completamento del compito.
- Prompting contestuale per trascrizioni: Supporta prompting che cambia il modo in cui viene prodotta la trascrizione (ad es., quando la valutazione della storia clinica richiede la cattura accurata di farmaci e dosaggi).
- Controllo sul dettaglio della trascrizione (verbatim, disfluenze e keyterms): Gli esempi mostrano opzioni per includere disfluenze (riempitivi, ripetizioni, riavvii, balbettii, parlato informale) e per richiedere termini chiave.
- Etichettatura tag audio ed eventi: Mostra output di “eventi audio non parlati” e include un esempio di aggiunta di tag come “beep”, distinguendo i suoni dal contenuto parlato.
- Ruoli dei parlanti nelle trascrizioni: Supporta l'etichettatura di ogni turno del parlante con un ruolo (ad es., formattazione come [Speaker:NURSE] / [Speaker:PATIENT]).
- Rilevamento lingua e preservazione code-switching: Include un esempio in cui il code-switching inglese/spagnolo è preservato “così com'è”, mentre viene indicato il rilevamento della lingua.
Come Usare AssemblyAI Voice Agent API
- Ottieni una chiave API: La pagina include un richiamo “Get your API Key”.
- Prova la demo live di Voice Agent API: Usa l'agente di supporto “Try the Voice Agent API live” fornito per sperimentare il comportamento in tempo reale.
- Costruisci il tuo voice agent intorno allo streaming audio: Integra l'API nella tua applicazione così l'agente può inviare input audio e ricevere trascrizione/output durante la chiamata.
- Regola l'output di trascrizione con prompting e richieste strutturate: Scegli il livello di dettaglio della trascrizione necessario (ad es., disfluenze verbatim, tag audio, etichettatura ruoli parlanti, gestione lingua/code-switching) in base al compito.
Casi d'Uso
- Supporto per intake clinico o valutazione storia clinica: Configura l'output della trascrizione per catturare nomi di farmaci e dosaggi e per includere dati di disfluenze (riempitivi, ripetizioni, riavvii, balbettii, parlato informale) per una valutazione più significativa.
- Trascrizioni per analisi conversazionali: Produci trascrizioni “adatte per analisi conversazionali”, opzionalmente aggiungendo tag per eventi non parlati (ad es., un beep) e controllando se includere disfluenze.
- Linee di supporto automatizzate che necessitano di cattura affidabile di entità: Usa l'accuratezza della trascrizione per dettagli operativi come numeri di telefono, ID ordini e nomi così l'agente può completare richieste comuni dei clienti.
- Riassunti di chiamate basati su ruoli: Etichetta ogni turno del parlante con ruoli (come infermiere/paziente) per facilitare l'elaborazione downstream nei flussi di lavoro che dipendono da chi ha detto cosa.
- Interazioni vocali bilingui: Preserva il code-switching naturale tra inglese e spagnolo così la trascrizione rifletta ciò che è stato detto senza forzare una singola lingua.
FAQ
L'agente demo live è lo stesso che posso creare con l'API?
Sì. La pagina specifica che l'agente di supporto mostrato nel demo live è costruito con la Voice Agent API—lo stesso che puoi implementare.
L'agente demo fornisce supporto per altri prodotti?
No. La pagina indica che l'agente fornisce supporto clienti solo per i prodotti AssemblyAI.
L'agente può restituire trascrizioni con disfluenze incluse?
Gli esempi mostrano che la generazione delle trascrizioni può essere configurata per includere informazioni sulle disfluenze come riempitivi, ripetizioni, riavvii, balbettii e linguaggio informale.
Le trascrizioni possono includere tag per audio non verbale?
Sì. Gli esempi mostrano “audio tags” e un caso in cui un beep è incluso come tag durante la generazione della trascrizione.
Può gestire più lingue o code-switching?
La pagina include un esempio di rilevamento lingua e preservazione del code-switching naturale tra inglese e spagnolo.
Alternative
- API speech-to-text con punteggiatura/diarizzazione configurabili: Se hai principalmente bisogno di trascrizione, un'API speech-to-text standard con diarizzazione speaker può essere un'alternativa; tuttavia, potresti dover fare lavoro extra per replicare gli stessi controlli di prompting per trascrizioni e comportamento di audio-tagging mostrati qui.
- Framework generici per voice agent (orchestrazione LLM + modelli speech): Puoi anche usare un framework voice-agent che combina streaming ASR/TTS e un LLM. Questo potrebbe spostare l'onere della formattazione delle trascrizioni basata su prompt e output strutturati sulla tua pipeline.
- Piattaforme IVR/voice per customer support: Per l'automazione delle linee di supporto, le piattaforme IVR-style possono gestire flussi di chiamata comuni, ma potrebbero non offrire lo stesso controllo a livello di trascrizione (es. disfluenze verbatim, tag audio, etichette speaker-role) previsto per l'analisi downstream.
- Tool per trascrizione meeting/chiamate con etichette speaker: Questi tool producono trascrizioni con attribuzione speaker; li confronteresti in base al supporto dello stesso livello di cattura disfluenze e comportamenti di trascrizione configurabili dimostrati negli esempi API.
Alternative
OpenAI Realtime API
Con OpenAI Realtime API crea esperienze vocali e audio in tempo reale a bassa latenza, multimodali, con agenti vocali web e trascrizione realtime.
Lemon
Lemon è un agente AI che trasforma comandi vocali in attività completate, gestendo messaggi, ricerche e delegando lavoro senza cambiare app.
Speech to Text Converter Online
Uno strumento online gratuito che converte file audio e video in accurate trascrizioni di testo in oltre 45 lingue. Supporta numerosi formati di file e non richiede download o registrazioni.
Pewbeam
Pewbeam ascolta mentre predichi, rileva in tempo reale i versetti della Bibbia e li mostra subito su schermo, senza digitare o cliccare.
Dictato
Dictato: app offline di dettatura vocale per macOS. Trascrive sul dispositivo e inserisce il testo ovunque stai scrivendo, senza cloud.}}
PXZ AI
Una piattaforma AI tutto in uno che combina strumenti per immagini, video, voce, scrittura e chat per migliorare la creatività e la collaborazione.