AssemblyAI Voice Agent API

使用 AssemblyAI Voice Agent API 流式传入音频并实时接收语音输出，配置逐字停顿、音频标签、说话人角色与代码切换等转写结构。

语音转文字

AssemblyAI Voice Agent API

什么是 AssemblyAI Voice Agent API？

AssemblyAI Voice Agent API 是一种用于构建语音代理的 API，可将音频流式传输到应用中，并实时接收语音相关输出。该页面将此 API 定位为在语音体验中添加任务完成和语音理解的方式，处理语音处理的关键部分，让开发者专注于代理的产品逻辑。

配套示例表明，该 API 可根据不同提示风格生成转写（如捕获临床病史评估细节、对话分析适用性以及专有名词），并可配置返回更丰富的转写结构，例如音频标签、逐字停顿数据和说话人角色标注。

主要功能

实时音频流式传输（输入音频，输出音频）： 专为“流式输入音频，即时返回音频”设计，支持代理在交互中响应的语音代理工作流。
针对任务关键实体的准确转写： 示例文本突出正确处理如 电子邮件、电话号码、订单 ID 和姓名 等项目，这些通常用于任务完成。
转写上下文感知提示： 支持更改转写生成的提示（如临床病史评估需准确捕获药物和剂量）。
转写细节控制（逐字、停顿和关键词）： 示例显示可包含停顿（填充词、重复、重启、口吃、非正式表达）并请求关键词的选项。
音频标签和事件标注： 显示“非语音音频事件”输出，并包含添加如“beep”等标签的示例，以区分声音和口语内容。
转写中的说话人角色： 支持为每个说话轮次标注角色（如 [Speaker:NURSE] / [Speaker:PATIENT] 格式）。
语言检测和代码切换保留： 包含英语/西班牙语代码切换“原样”保留的示例，同时指示语言检测。

如何使用 AssemblyAI Voice Agent API

获取 API 密钥： 页面包含“获取您的 API 密钥”提示。
试用实时 Voice Agent API 演示： 使用提供的“实时试用 Voice Agent API”支持代理体验实时行为。
围绕流式音频构建您的语音代理： 将 API 集成到应用中，让代理在通话中发送音频输入并接收转写/输出。
通过提示和结构化请求调整转写输出： 根据任务选择转写细节级别（如逐字停顿、音频标签、说话人角色标注、语言/代码切换处理）。

使用场景

临床摄入或临床病史评估支持： 配置转写输出以捕获药物名称和剂量，并包含停顿数据（填充词、重复、重启、口吃、非正式表达），以进行更有意义的评估。
对话分析转写： 生成“适用于对话分析”的转写，可选添加非语音事件标签（如 beep），并控制是否包含停顿。
需要可靠实体捕获的自动化支持热线： 使用转写准确性处理运营细节，如电话号码、订单 ID 和姓名，让代理完成常见客户请求。
基于角色的通话摘要： 为每个说话轮次标注角色（如护士/患者），简化依赖“谁说了什么”的下游工作流处理。
双语语音交互： 保留英语和西班牙语间的自然代码切换，让转写反映实际口语，而非强制单一语言。

常见问题

实时演示代理是否与 API 可构建的代理相同？

是的。页面指出，实时演示中展示的支持代理基于 Voice Agent API——您可以直接部署相同的代理。

演示代理是否支持其他产品？

否。页面说明，该代理仅为 AssemblyAI 产品 提供客户支持。

代理能否返回包含停顿的转写文本？

示例表明，转写生成可通过提示包含停顿信息，如填充词、重复、重启、口吃和非正式表达。

转写文本能否包含非语音音频标签？

是的。示例展示了“audio tags”，以及转写生成中将蜂鸣声作为标签包含的情况。

它能否处理多种语言或代码切换？

页面包含语言检测示例，并保留英语与西班牙语之间的自然代码切换。

替代方案

支持可配置标点/说话人分离的语音转文本 API： 如果您主要需要转写，标准语音转文本 API（带说话人分离）可作为替代；但您可能需要额外工作来复制此处展示的转写提示控制和音频标签行为。
通用语音代理框架（LLM 编排 + 语音模型）： 您也可以使用结合流式 ASR/TTS 和 LLM 的语音代理框架。这可能将提示驱动的转写格式化和结构化输出负担转移到您自己的管道中。
客户支持 IVR/语音平台： 对于支持热线自动化，IVR 风格平台可处理常见通话流程，但它们可能无法提供相同的转写级控制（例如，逐字停顿、音频标签、说话人角色标签），这些控制旨在用于下游分析。
带说话人标签的会议/通话转写工具： 这些工具可生成带说话人归属的转写文本；您可根据它们是否支持 API 示例中展示的相同停顿捕获水平和可配置转写行为进行比较。

替代品

OpenAI Realtime API

使用 OpenAI Realtime API 构建低延迟、多模态语音与实时音频体验，支持浏览器语音代理与 WebSocket 实时转录。

Lemon

Lemon AI 智能体，语音指令转任务，管理消息、研究、委派工作，无需切换应用。

Speech to Text Converter Online

一个免费的在线工具，可将音频和视频文件转换为45种以上语言的准确文本记录。它支持多种文件格式，无需下载或注册。

Pewbeam

Pewbeam 实时聆听讲道并自动识别圣经经文，瞬间投屏显示，帮助牧师与投影团队无需输入即可保持流程顺畅。

Dictato

Dictato 是 macOS 离线语音转文字应用：支持 Whisper、Parakeet 与 Apple 引擎，不走云端并无超时，将文字插入任意输入框。

PXZ AI

一个集成图像、视频、语音、写作和聊天工具的全能AI平台，以增强创造力和协作。