UStackUStack
AssemblyAI Voice Agent API icon

AssemblyAI Voice Agent API

Erstelle Voice Agents mit der AssemblyAI Voice Agent API: Audio streamen und Sprach-Output zurück erhalten. Transkripte u. a. mit Audio-Tags, Rollen & Code-Switching.

AssemblyAI Voice Agent API

Was ist die AssemblyAI Voice Agent API?

Die AssemblyAI Voice Agent API ist eine API zum Erstellen von Voice Agents, die Audio in Echtzeit in eine Anwendung streamen und sprachbezogene Ausgaben zurückerhalten. Die Seite positioniert die API als Möglichkeit, Aufgabenabwicklung und Sprachverständnis zu einer Voice-Erfahrung hinzuzufügen, indem zentrale Teile der Voice-Verarbeitung übernommen werden, damit Entwickler sich auf die Produktlogik des Agents konzentrieren können.

Die beiliegenden Beispiele zeigen, dass die API Transkripte unter verschiedenen Prompting-Stilen erzeugen kann (z. B. Erfassung von klinischen Anamnese-Details, Eignung für konversationelle Analysen und Eigennamen) und konfigurierbar ist, um reichhaltigere Transkriptstrukturen wie Audio-Tags, wörtliche Disfluenzdaten und Speaker-Rollen-Labeling zurückzugeben.

Wichtige Funktionen

  • Echtzeit-Audio-Streaming (Input rein, Output raus): Entwickelt für „Audio streamen, Audio zurückerhalten“, unterstützt Voice-Agent-Workflows, in denen der Agent während der Interaktion antwortet.
  • Genauigkeit bei transkriptionskritischen Entitäten: Beispiele heben korrekte Handhabung von Elementen wie E-Mails, Telefonnummern, Bestell-IDs und Namen hervor, die häufig für Aufgabenabwicklung benötigt werden.
  • Kontextbezogenes Prompting für Transkripte: Unterstützt Prompting, das die Transkripterzeugung verändert (z. B. wenn klinische Anamnesebewertung Medikamente und Dosierungen genau erfasst).
  • Kontrolle über Transkriptdetails (wörtlich, Disfluenzen, Keyterms): Beispiele zeigen Optionen zur Einbeziehung von Disfluenzen (Füller, Wiederholungen, Neustarts, Stottern, informelle Sprache) und Anforderung von Keyterms.
  • Audio-Tagging und Event-Labeling: Zeigt „non-speech audio event“-Ausgaben und ein Beispiel für Tags wie „beep“, um Geräusche von gesprochener Inhalte zu unterscheiden.
  • Speaker-Rollen in Transkripten: Unterstützt das Labeln jeder Sprecherwendung mit einer Rolle (z. B. [Speaker:NURSE] / [Speaker:PATIENT]).
  • Spracherkennung und Code-Switching-Erhaltung: Beinhaltet ein Beispiel, bei dem Englisch/Spanisch-Code-Switching „as-is“ erhalten bleibt, während Spracherkennung angezeigt wird.

So nutzt du die AssemblyAI Voice Agent API

  • API-Schlüssel erhalten: Die Seite enthält einen „Get your API Key“-Hinweis.
  • Live-Demo der Voice Agent API ausprobieren: Nutze den bereitgestellten „Try the Voice Agent API live“-Support-Agent, um Echtzeit-Verhalten zu erleben.
  • Voice Agent um gestreamtes Audio aufbauen: Integriere die API in deine Anwendung, damit der Agent Audio-Input senden und Transkript/Ausgabe während des Calls empfangen kann.
  • Transkriptausgabe mit Prompting und strukturierten Anfragen anpassen: Wähle das benötigte Detailniveau (z. B. wörtliche Disfluenzen, Audio-Tags, Speaker-Rollen-Labeling, Sprach-/Code-Switching-Handhabung) je nach Aufgabe.

Anwendungsfälle

  • Klinische Aufnahme oder Anamnesebewertung: Konfiguriere die Transkriptausgabe zur Erfassung von Medikamentennamen und Dosierungen sowie Einbeziehung von Disfluenzdaten (Füller, Wiederholungen, Neustarts, Stottern, informelle Sprache) für aussagekräftigere Bewertungen.
  • Transkripte für konversationelle Analysen: Erzeuge „suitable for conversational analysis“-Transkripte, optional mit Tags für Non-Speech-Events (z. B. Beep) und Steuerung der Disfluenz-Einbeziehung.
  • Automatisierte Support-Hotlines mit zuverlässiger Entitäten-Erfassung: Nutze Transkriptgenauigkeit für operative Details wie Telefonnummern, Bestell-IDs und Namen, damit der Agent gängige Kundenanfragen erledigen kann.
  • Rollenbasierte Call-Zusammenfassungen: Label jede Sprecherwendung mit Rollen (z. B. Krankenschwester/Patient), um nachgelagerte Verarbeitung für Workflows zu erleichtern, die auf „wer hat was gesagt“ angewiesen sind.
  • Bilinguale Voice-Interaktionen: Erhalte natürliches Code-Switching zwischen Englisch und Spanisch, sodass das Transkript widerspiegelt, was gesprochen wurde, ohne Zwang zu einer Sprache.

FAQ

Ist der Live-Demo-Agent derselbe, den ich mit der API erstellen kann?

Ja. Die Seite vermerkt, dass der im Live-Demo gezeigte Support-Agent auf der Voice Agent API basiert – derselben, die Sie einsetzen können.

Bietet der Demo-Agent Support für andere Produkte?

Nein. Die Seite gibt an, dass der Agent Kundensupport nur für AssemblyAI-Produkte bietet.

Kann der Agent Transkripte mit Disfluencies liefern?

Die Beispiele zeigen, dass die Transkripterzeugung so angeregt werden kann, dass Disfluency-Informationen wie Füllwörter, Wiederholungen, Neustarts, Stottern und informelle Sprache enthalten sind.

Können Transkripte Non-Speech-Audio-Tags enthalten?

Ja. Die Beispiele zeigen „audio tags“ und einen Fall, in dem ein Piepton als Tag während der Transkripterzeugung eingefügt wird.

Kann er mehrere Sprachen oder Code-Switching handhaben?

Die Seite enthält ein Beispiel für Spracherkennung und das Erhalten natürlichen Code-Switchings zwischen Englisch und Spanisch.

Alternativen

  • Speech-to-Text-APIs mit konfigurierbarer Interpunktion/Diarisierung: Wenn Sie hauptsächlich Transkription benötigen, kann eine Standard-Speech-to-Text-API mit Speaker-Diarisierung eine Alternative sein; Sie benötigen jedoch möglicherweise zusätzliche Arbeit, um die gleichen Transkript-Steuerungen und Audio-Tagging-Verhalten wie hier gezeigt nachzubilden.
  • Generische Voice-Agent-Frameworks (LLM-Orchestrierung + Speech-Modelle): Sie können auch ein Voice-Agent-Framework nutzen, das streaming ASR/TTS mit einem LLM kombiniert. Dies könnte die Belastung für promptgesteuerte Transkriptformatierung und strukturierte Ausgaben auf Ihren eigenen Pipeline verlagern.
  • Customer-Support-IVR-/Voice-Plattformen: Für Support-Hotline-Automatisierung können IVR-ähnliche Plattformen gängige Anrufabläufe handhaben, bieten aber möglicherweise nicht die gleiche Transkript-Steuerung (z. B. verbatim Disfluencies, Audio-Tags, Speaker-Rollen-Labels) für nachgelagerte Analysen.
  • Meeting-/Anruf-Transkriptionstools mit Speaker-Labels: Diese Tools erzeugen Transkripte mit Sprecherzuordnung; vergleichen Sie sie basierend darauf, ob sie das gleiche Niveau an Disfluency-Erfassung und konfigurierbaren Transkript-Verhalten wie in den API-Beispielen unterstützen.