AssemblyAI Voice Agent API

什麼是 AssemblyAI Voice Agent API？

AssemblyAI Voice Agent API 是一款用於建構語音代理的 API，能將音訊串流至應用程式，並即時接收語音相關輸出。此頁面將該 API 定位為在語音體驗中加入任務完成與語音理解的方式，處理語音處理的核心部分，讓開發者專注於代理的產品邏輯。

隨附範例顯示，該 API 可依不同提示風格產生逐字稿（例如擷取臨床病史評估細節、對話分析適用性，以及專有名詞），並可設定回傳更豐富的逐字稿結構，如音訊標籤、逐字不順暢資料，以及發言者角色標記。

即時音訊串流（輸入進、輸出出）： 設計為「串流音訊輸入，即時取得音訊回傳」，支援語音代理工作流程，讓代理在互動中回應。
任務關鍵實體的精準轉錄： 範例文字強調正確處理如 電子郵件、電話號碼、訂單 ID 及姓名 等項目，這些是任務完成常見需求。
逐字稿的脈絡感知提示： 支援改變逐字稿產生方式的提示（例如臨床病史評估需精準擷取藥物及劑量）。
逐字稿細節控制（逐字、不順暢及關鍵詞）： 範例顯示可包含不順暢（填充詞、重複、重新開始、結巴、非正式語音）選項，並可要求關鍵詞。
音訊標記與事件標記： 顯示「非語音音訊事件」輸出，並包含新增如「beep」等標記的範例，用以區分聲音與語音內容。
逐字稿中的發言者角色： 支援為每個發言輪次標記角色（例如 [Speaker:NURSE] / [Speaker:PATIENT] 格式）。
語言偵測與代碼切換保留： 包含英文/西班牙文代碼切換「原樣保留」的範例，同時標示語言偵測。

是的。頁面註明，即時示範中顯示的支援代理是基於 Voice Agent API 建置的——與您可部署的相同。

否。頁面指出，該代理僅提供 AssemblyAI 產品 的客戶支援。

範例顯示，逐字稿生成可被提示包含不順暢資訊，例如填充詞、重複、重新開始、結巴及非正式語音。

是的。範例顯示「音訊標籤」，以及逐字稿生成中將嗶聲包含為標籤的情境。

頁面包含語言偵測範例，並保留英語與西班牙語間的自然代碼切換。

可設定標點/說話者分離的語音轉文字 API：若主要需求為轉錄，具說話者分離的標準語音轉文字 API 可作為替代；不過，您可能需額外工作來複製此處所示的逐字稿提示控制及音訊標記行為。
通用語音代理框架（LLM 協調 + 語音模型）：您亦可採用結合串流 ASR/TTS 與 LLM 的語音代理框架。這可能將提示驅動的逐字稿格式化及結構化輸出的負擔轉移至您自己的管線。
客戶支援 IVR/語音平台：用於支援熱線自動化，IVR 式平台可處理常見通話流程，但可能無法提供相同逐字稿層級控制（例如逐字不順暢、音訊標籤、發言者角色標記），這些用於下游分析。
具發言者標記的會議/通話轉錄工具：這些工具可產生具發言者歸屬的逐字稿；您可依其是否支援 API 範例所示的不順暢捕捉程度及可設定轉錄行為來比較。