UStackUStack
AssemblyAI Voice Agent API icon

AssemblyAI Voice Agent API

Crie voice agents com a AssemblyAI Voice Agent API: faça streaming de áudio e receba saída de voz em tempo real. Transcrição detalhada, tags e papéis.

AssemblyAI Voice Agent API

O que é a AssemblyAI Voice Agent API?

A AssemblyAI Voice Agent API é uma API para criar voice agents que podem fazer streaming de áudio para uma aplicação e receber saída relacionada a voz em tempo real. A página posiciona a API como uma forma de adicionar conclusão de tarefas e compreensão de fala a uma experiência de voz, lidando com partes chave do processamento de voz para que os desenvolvedores possam focar na lógica do produto do agente.

Os exemplos acompanhantes indicam que a API pode produzir transcrições sob diferentes estilos de prompting (ex.: capturando detalhes de avaliação de histórico clínico, adequação para análise conversacional e nomes próprios), e pode ser configurada para retornar estruturas de transcrição mais ricas, como tags de áudio, dados de desfluências verbatim e rotulagem de papéis de falantes.

Principais Recursos

  • Streaming de áudio em tempo real (entrada, saída): Projetada para “streaming de áudio de entrada, áudio de saída”, suportando fluxos de trabalho de voice agents onde o agente responde durante a interação.
  • Transcrição precisa para entidades críticas à tarefa: O texto de exemplo destaca o manuseio correto de itens como e-mails, números de telefone, IDs de pedido e nomes, comumente necessários para conclusão de tarefas.
  • Prompting consciente de contexto para transcrições: Suporta prompting que altera como a transcrição é produzida (ex.: quando avaliação de histórico clínico requer captura precisa de medicamento e dosagem).
  • Controle sobre detalhes da transcrição (verbatim, desfluências e termos-chave): Exemplos mostram opções para incluir desfluências (preenchimentos, repetições, reinícios, gaguejos, fala informal) e solicitar termos-chave.
  • Marcação de áudio e rotulagem de eventos: Mostra saída de “evento de áudio não falado” e inclui exemplo de adicionar tags como “beep”, distinguindo sons de conteúdo falado.
  • Papéis de falantes em transcrições: Suporta rotular cada turno de falante com um papel (ex.: formatação como [Speaker:NURSE] / [Speaker:PATIENT]).
  • Detecção de idioma e preservação de code-switching: Inclui exemplo onde code-switching inglês/espanhol é preservado “como é”, enquanto a detecção de idioma é indicada.

Como Usar a AssemblyAI Voice Agent API

  • Obtenha uma chave de API: A página inclui um callout “Get your API Key”.
  • Experimente a demo ao vivo da Voice Agent API: Use o agente de suporte “Try the Voice Agent API live” fornecido para experimentar o comportamento em tempo real.
  • Construa seu voice agent em torno de áudio em streaming: Integre a API à sua aplicação para que o agente envie áudio de entrada e receba transcrição/saída durante a chamada.
  • Ajuste a saída de transcrição com prompting e requisições estruturadas: Escolha o nível de detalhe da transcrição necessário (ex.: desfluências verbatim, tags de áudio, rotulagem de papéis de falantes, manuseio de idioma/code-switching) com base na tarefa.

Casos de Uso

  • Suporte a intake clínico ou avaliação de histórico clínico: Configure a saída de transcrição para capturar nomes de medicamentos e dosagens e incluir dados de desfluências (preenchimentos, repetições, reinícios, gaguejos, fala informal) para avaliação mais significativa.
  • Transcrições para análise conversacional: Produza transcrições “adequadas para análise conversacional”, opcionalmente adicionando tags para eventos não falados (ex.: um beep) e controlando se desfluências são incluídas.
  • Linhas de suporte automatizadas que precisam de captura confiável de entidades: Use a precisão da transcrição para detalhes operacionais como números de telefone, IDs de pedido e nomes para que o agente complete pedidos comuns de clientes.
  • Resumos de chamadas baseados em papéis: Rotule cada turno de falante com papéis (como enfermeira/paciente) para facilitar o processamento downstream em fluxos de trabalho que dependem de quem disse o quê.
  • Interações de voz bilíngues: Preserve code-switching natural entre inglês e espanhol para que a transcrição reflita o que foi falado sem forçar um único idioma.

FAQ

O agente de demo ao vivo é o mesmo que posso construir com a API?

Sim. A página observa que o agente de suporte mostrado no demo ao vivo é construído com a Voice Agent API — o mesmo que você pode implementar.

O agente de demo oferece suporte a outros produtos?

Não. A página afirma que o agente fornece suporte ao cliente apenas para produtos AssemblyAI.

O agente pode retornar transcrições com disfluências incluídas?

Os exemplos indicam que a geração de transcrições pode ser configurada para incluir informações de disfluências, como fillers, repetições, reinícios, gaguejos e fala informal.

As transcrições podem incluir tags de áudio não verbal?

Sim. Os exemplos mostram “audio tags” e um caso em que um bipe é incluído como tag durante a geração de transcrições.

Ele lida com múltiplos idiomas ou code-switching?

A página inclui um exemplo de detecção de idioma e preservação de code-switching natural entre inglês e espanhol.

Alternativas

  • APIs de speech-to-text com pontuação/diarização configuráveis: Se você precisa principalmente de transcrição, uma API de speech-to-text padrão com diarização de falantes pode ser uma alternativa; no entanto, pode ser necessário trabalho adicional para replicar os mesmos controles de prompting de transcrições e comportamento de tags de áudio mostrados aqui.
  • Frameworks genéricos de voice agent (orquestração LLM + modelos de speech): Você também pode usar um framework de voice agent que combina streaming ASR/TTS e um LLM. Isso pode transferir a responsabilidade de formatação de transcrições guiada por prompts e saídas estruturadas para sua própria pipeline.
  • Plataformas IVR/voice para suporte ao cliente: Para automação de linhas de suporte, plataformas estilo IVR podem lidar com fluxos de chamadas comuns, mas podem não oferecer o mesmo controle em nível de transcrição (ex.: disfluências verbatim, tags de áudio, rótulos de papéis de falantes) destinado à análise downstream.
  • Ferramentas de transcrição de reuniões/chamadas com rótulos de falantes: Essas ferramentas podem produzir transcrições com atribuição de falantes; você as compararia com base no suporte ao mesmo nível de captura de disfluências e comportamentos de transcrição configuráveis demonstrados nos exemplos da API.