UStackUStack
AssemblyAI Voice Agent API icon

AssemblyAI Voice Agent API

Créez des agents vocaux avec l’AssemblyAI Voice Agent API : diffusez l’audio en continu et recevez la sortie vocale, avec options de transcription.

AssemblyAI Voice Agent API

Qu’est-ce que l’AssemblyAI Voice Agent API ?

L’AssemblyAI Voice Agent API est une API pour créer des agents vocaux capables de diffuser de l’audio en continu vers une application et de recevoir une sortie vocale en temps réel. Cette page positionne l’API comme un moyen d’ajouter l’accomplissement de tâches et la compréhension vocale à une expérience vocale, en gérant les aspects clés du traitement vocal pour que les développeurs se concentrent sur la logique métier de l’agent.

Les exemples fournis montrent que l’API peut produire des transcriptions selon différents styles d’incitation (par ex., capture de détails d’évaluation d’antécédents cliniques, pertinence pour l’analyse conversationnelle, et noms propres), et peut être configurée pour retourner des structures de transcription enrichies telles que des balises audio, des données de disfluences verbatim, et l’étiquetage des rôles des locuteurs.

Fonctionnalités clés

  • Diffusion audio en temps réel (entrée audio, sortie audio) : Conçue pour « diffuser l’audio en entrée, recevoir l’audio en sortie », elle prend en charge les flux de travail d’agents vocaux où l’agent répond pendant l’interaction.
  • Transcription précise pour les entités critiques aux tâches : Les exemples mettent en avant la gestion correcte d’éléments comme les e-mails, numéros de téléphone, ID de commande et noms, couramment nécessaires pour l’accomplissement des tâches.
  • Incitations contextuelles pour les transcriptions : Prend en charge des incitations modifiant la production de la transcription (par ex., quand l’évaluation d’antécédents cliniques exige une capture précise des médicaments et dosages).
  • Contrôle du niveau de détail des transcriptions (verbatim, disfluences, termes clés) : Les exemples montrent des options pour inclure les disfluences (remplisseurs, répétitions, reprises, bégaiements, langage informel) et demander des termes clés.
  • Étiquetage audio et événements : Montre une sortie pour « événement audio non vocal » et inclut un exemple d’ajout de balises comme « beep », distinguant les sons du contenu parlé.
  • Rôles des locuteurs dans les transcriptions : Prend en charge l’étiquetage de chaque tour de parole avec un rôle (par ex., format comme [Speaker:NURSE] / [Speaker:PATIENT]).
  • Détection de langue et préservation du code-switching : Inclut un exemple où le code-switching anglais/espagnol est préservé « tel quel », avec indication de détection de langue.

Comment utiliser l’AssemblyAI Voice Agent API

  • Obtenir une clé API : La page inclut un appel à « Get your API Key ».
  • Essayer la démo live de l’API Voice Agent : Utilisez l’agent de support « Try the Voice Agent API live » fourni pour expérimenter le comportement en temps réel.
  • Construire votre agent vocal autour de l’audio diffusé : Intégrez l’API dans votre application pour que l’agent envoie l’audio en entrée et reçoive la transcription/sortie pendant l’appel.
  • Ajuster la sortie de transcription avec des incitations et requêtes structurées : Choisissez le niveau de détail de la transcription nécessaire (par ex., disfluences verbatim, balises audio, étiquetage des rôles des locuteurs, gestion de langue/code-switching) en fonction de la tâche.

Cas d’usage

  • Soutien à l’accueil clinique ou évaluation d’antécédents cliniques : Configurez la sortie de transcription pour capturer les noms de médicaments et dosages, et inclure les données de disfluences (remplisseurs, répétitions, reprises, bégaiements, langage informel) pour une évaluation plus pertinente.
  • Transcriptions pour analyse conversationnelle : Produisez des transcriptions « adaptées à l’analyse conversationnelle », avec ajout optionnel de balises pour événements non vocaux (par ex., un beep) et contrôle de l’inclusion des disfluences.
  • Lignes de support automatisées nécessitant une capture fiable d’entités : Utilisez la précision des transcriptions pour les détails opérationnels comme les numéros de téléphone, ID de commande et noms, afin que l’agent traite les demandes courantes des clients.
  • Résumés d’appels basés sur les rôles : Étiquetez chaque tour de parole avec des rôles (comme infirmier/patient) pour faciliter le traitement aval dans les flux de travail dépendant de qui a dit quoi.
  • Interactions vocales bilingues : Préservez le code-switching naturel entre anglais et espagnol pour que la transcription reflète fidèlement ce qui a été dit, sans imposer une seule langue.

FAQ

L’agent de la démo en direct est-il le même que celui que je peux créer avec l’API ?

Oui. La page précise que l’agent de support affiché dans la démo en direct est construit sur la Voice Agent API — la même que vous pouvez déployer.

L’agent de démo prend-il en charge d’autres produits ?

Non. La page indique que l’agent fournit un support client pour les produits AssemblyAI uniquement.

L’agent peut-il renvoyer des transcriptions incluant les disfluidités ?

Les exemples montrent que la génération de transcription peut être configurée pour inclure les informations sur les disfluidités telles que les fillers, répétitions, redémarrages, bégaiements et langage informel.

Les transcriptions peuvent-elles inclure des balises audio non vocales ?

Oui. Les exemples montrent des « audio tags » et un cas où un bip est inclus comme balise lors de la génération de transcription.

Peut-il gérer plusieurs langues ou le code-switching ?

La page inclut un exemple de détection de langue et de préservation du code-switching naturel entre l’anglais et l’espagnol.

Alternatives

  • API de reconnaissance vocale avec ponctuation/diarisation configurables : Si vous avez principalement besoin de transcription, une API de reconnaissance vocale standard avec diarisation des locuteurs peut être une alternative ; cependant, vous devrez peut-être ajouter du travail pour reproduire les mêmes contrôles de formatage de transcription et le comportement de balisage audio présentés ici.
  • Frameworks d’agents vocaux génériques (orchestration LLM + modèles vocaux) : Vous pouvez aussi utiliser un framework d’agent vocal combinant ASR/TTS en continu et un LLM. Cela peut déplacer la charge de formatage de transcription piloté par prompts et de sorties structurées vers votre propre pipeline.
  • Plateformes IVR/support vocal pour clients : Pour l’automatisation des lignes de support, les plateformes de type IVR peuvent gérer les flux d’appels courants, mais elles n’offrent pas le même niveau de contrôle au niveau de la transcription (ex. : disfluidités verbatim, balises audio, étiquettes de rôles de locuteurs) prévu pour l’analyse en aval.
  • Outils de transcription de réunions/appels avec étiquettes de locuteurs : Ces outils produisent des transcriptions avec attribution des locuteurs ; comparez-les selon leur prise en charge du même niveau de capture de disfluidités et de comportements de transcription configurables démontrés dans les exemples d’API.