AssemblyAI Voice Agent API
Crea agentes de voz con AssemblyAI Voice Agent API: transmite audio y recibe salida de voz en tiempo real. Configura transcripciones y etiquetas.
¿Qué es AssemblyAI Voice Agent API?
AssemblyAI Voice Agent API es una API para crear agentes de voz que transmiten audio a una aplicación y reciben salida relacionada con voz en tiempo real. La página presenta la API como una forma de agregar completación de tareas y comprensión del habla a una experiencia de voz, manejando partes clave del procesamiento de voz para que los desarrolladores se enfoquen en la lógica del producto del agente.
Los ejemplos adjuntos indican que la API puede generar transcripciones bajo diferentes estilos de prompting (p. ej., capturando detalles de evaluación de historial clínico, idoneidad para análisis conversacional y nombres propios), y puede configurarse para devolver estructuras de transcripción más ricas como etiquetas de audio, datos de disfluencias verbatim y etiquetado de roles de hablantes.
Características principales
- Transmisión de audio en tiempo real (entrada y salida): Diseñada para “transmitir audio de entrada, recibir audio de salida”, compatible con flujos de trabajo de agentes de voz donde el agente responde durante la interacción.
- Transcripción precisa para entidades críticas para tareas: El texto de ejemplo resalta el manejo correcto de elementos como correos electrónicos, números de teléfono, IDs de pedidos y nombres, comúnmente necesarios para completar tareas.
- Prompting consciente del contexto para transcripciones: Admite prompting que cambia cómo se produce la transcripción (p. ej., cuando la evaluación de historial clínico requiere capturar medicamentos y dosis con precisión).
- Control sobre el detalle de la transcripción (verbatim, disfluencias y términos clave): Los ejemplos muestran opciones para incluir disfluencias (rellenos, repeticiones, reinicios, tartamudeos, habla informal) y solicitar términos clave.
- Etiquetado de audio y eventos: Muestra salida de “eventos de audio no hablados” e incluye un ejemplo de agregar etiquetas como “beep”, distinguiendo sonidos del contenido hablado.
- Roles de hablantes en transcripciones: Admite etiquetar cada turno de hablante con un rol (p. ej., [Speaker:NURSE] / [Speaker:PATIENT]).
- Detección de idioma y preservación de code-switching: Incluye un ejemplo donde se preserva el code-switching entre inglés y español “tal cual”, mientras se indica la detección de idioma.
Cómo usar AssemblyAI Voice Agent API
- Obtén una clave API: La página incluye un llamado a “Get your API Key”.
- Prueba la demo en vivo de Voice Agent API: Usa el agente de soporte “Try the Voice Agent API live” proporcionado para experimentar el comportamiento en tiempo real.
- Construye tu agente de voz alrededor de audio transmitido: Integra la API en tu aplicación para que el agente envíe audio de entrada y reciba transcripción/salida durante la llamada.
- Ajusta la salida de transcripción con prompting y solicitudes estructuradas: Elige el nivel de detalle de la transcripción que necesitas (p. ej., disfluencias verbatim, etiquetas de audio, etiquetado de roles de hablantes, manejo de idioma/code-switching) según la tarea.
Casos de uso
- Soporte para admisión clínica o evaluación de historial clínico: Configura la salida de transcripción para capturar nombres de medicamentos y dosis, e incluir datos de disfluencias (rellenos, repeticiones, reinicios, tartamudeos, habla informal) para una evaluación más significativa.
- Transcripciones para análisis conversacional: Produce transcripciones “aptas para análisis conversacional”, opcionalmente agregando etiquetas para eventos no hablados (p. ej., un beep) y controlando si se incluyen disfluencias.
- Líneas de soporte automatizadas que necesitan captura confiable de entidades: Usa la precisión de la transcripción para detalles operativos como números de teléfono, IDs de pedidos y nombres, para que el agente complete solicitudes comunes de clientes.
- Resúmenes de llamadas basados en roles: Etiqueta cada turno de hablante con roles (como enfermera/paciente) para facilitar el procesamiento posterior en flujos de trabajo que dependen de quién dijo qué.
- Interacciones de voz bilingües: Preserva el code-switching natural entre inglés y español para que la transcripción refleje lo hablado sin forzar un solo idioma.
Preguntas frecuentes
¿El agente de la demostración en vivo es el mismo que puedo crear con la API?
Sí. La página indica que el agente de soporte mostrado en la demostración en vivo está construido con la Voice Agent API, el mismo que puedes implementar.
¿El agente de demostración ofrece soporte para otros productos?
No. La página establece que el agente proporciona soporte al cliente solo para productos de AssemblyAI.
¿Puede el agente devolver transcripciones con disfluencias incluidas?
Los ejemplos indican que la generación de transcripciones puede configurarse para incluir información de disfluencias como rellenos, repeticiones, reinicios, tartamudeos y habla informal.
¿Pueden las transcripciones incluir etiquetas de audio no verbal?
Sí. Los ejemplos muestran “audio tags” y un caso en el que un pitido se incluye como etiqueta durante la generación de la transcripción.
¿Puede manejar múltiples idiomas o alternancia de códigos?
La página incluye un ejemplo de detección de idiomas y preservación de alternancia natural de códigos entre inglés y español.
Alternativas
- APIs de speech-to-text con puntuación/diarización configurable: Si principalmente necesitas transcripción, una API estándar de speech-to-text con diarización de hablantes puede ser una alternativa; sin embargo, podrías necesitar trabajo adicional para replicar los mismos controles de提示 de transcripción y comportamiento de etiquetado de audio mostrados aquí.
- Frameworks genéricos de agentes de voz (orquestación LLM + modelos de speech): También puedes usar un framework de agentes de voz que combine ASR/TTS en streaming y un LLM. Esto puede trasladar la carga de formateo de transcripciones impulsado por prompts y salidas estructuradas a tu propia pipeline.
- Plataformas IVR/voz para soporte al cliente: Para automatización de líneas de soporte, plataformas estilo IVR pueden manejar flujos de llamadas comunes, pero podrían no ofrecer el mismo control a nivel de transcripción (p. ej., disfluencias verbatim, etiquetas de audio, etiquetas de roles de hablante) previsto para análisis downstream.
- Herramientas de transcripción de reuniones/llamadas con etiquetas de hablante: Estas herramientas pueden producir transcripciones con atribución de hablante; las compararías según si soportan el mismo nivel de captura de disfluencias y comportamientos de transcripción configurables demostrados en los ejemplos de la API.
Alternativas
OpenAI Realtime API
Crea experiencias de voz en tiempo real y multimodales con OpenAI Realtime API: agentes de voz en el navegador y transcripción en tiempo real.
Lemon
Lemon: agente IA que convierte comandos de voz en tareas completadas. Gestiona mensajes, investiga y delega sin cambiar de aplicación.
Speech to Text Converter Online
Una herramienta en línea gratuita que convierte archivos de audio y video en transcripciones de texto precisas en más de 45 idiomas. Admite numerosos formatos de archivo y no requiere descargas ni registros.
Pewbeam
Pewbeam escucha mientras predicas, detecta versículos bíblicos en tiempo real y los muestra al instante en pantalla, sin teclear ni hacer clics.
Dictato
Dictato es una app de dictado de voz a texto sin conexión para macOS: transcribe en el dispositivo y escribe en cualquier app.
PXZ AI
Una plataforma de IA todo en uno que combina herramientas para imagen, video, voz, escritura y chat para mejorar la creatividad y la colaboración.