什麼是 AssemblyAI Voice Agent API?
AssemblyAI Voice Agent API 是一款用於建構語音代理的 API,能將音訊串流至應用程式,並即時接收語音相關輸出。此頁面將該 API 定位為在語音體驗中加入任務完成與語音理解的方式,處理語音處理的核心部分,讓開發者專注於代理的產品邏輯。
隨附範例顯示,該 API 可依不同提示風格產生逐字稿(例如擷取臨床病史評估細節、對話分析適用性,以及專有名詞),並可設定回傳更豐富的逐字稿結構,如音訊標籤、逐字不順暢資料,以及發言者角色標記。
主要功能
- 即時音訊串流(輸入進、輸出出): 設計為「串流音訊輸入,即時取得音訊回傳」,支援語音代理工作流程,讓代理在互動中回應。
- 任務關鍵實體的精準轉錄: 範例文字強調正確處理如 電子郵件、電話號碼、訂單 ID 及姓名 等項目,這些是任務完成常見需求。
- 逐字稿的脈絡感知提示: 支援改變逐字稿產生方式的提示(例如臨床病史評估需精準擷取藥物及劑量)。
- 逐字稿細節控制(逐字、不順暢及關鍵詞): 範例顯示可包含不順暢(填充詞、重複、重新開始、結巴、非正式語音)選項,並可要求關鍵詞。
- 音訊標記與事件標記: 顯示「非語音音訊事件」輸出,並包含新增如「beep」等標記的範例,用以區分聲音與語音內容。
- 逐字稿中的發言者角色: 支援為每個發言輪次標記角色(例如 [Speaker:NURSE] / [Speaker:PATIENT] 格式)。
- 語言偵測與代碼切換保留: 包含英文/西班牙文代碼切換「原樣保留」的範例,同時標示語言偵測。
如何使用 AssemblyAI Voice Agent API
- 取得 API 金鑰: 頁面包含「取得您的 API 金鑰」提示。
- 試用即時 Voice Agent API 示範: 使用提供的「即時試用 Voice Agent API」支援代理,體驗即時行為。
- 以串流音訊建構您的語音代理: 將 API 整合至應用程式,讓代理在通話中傳送音訊輸入並接收轉錄/輸出。
- 以提示及結構化請求調整轉錄輸出: 依任務選擇逐字稿細節層級(例如逐字不順暢、音訊標籤、發言者角色標記、語言/代碼切換處理)。
使用案例
- 臨床接待或臨床病史評估支援: 設定逐字稿輸出以擷取藥物名稱及劑量,並包含不順暢資料(填充詞、重複、重新開始、結巴、非正式語音),以利更有意義的評估。
- 對話分析逐字稿: 產生「適合對話分析」的逐字稿,可選擇新增非語音事件標記(例如 beep),並控制是否包含不順暢。
- 需可靠實體擷取的自動化支援熱線: 使用轉錄精準度處理營運細節,如電話號碼、訂單 ID 及姓名,讓代理完成常見客戶請求。
- 基於角色的通話摘要: 為每個發言輪次標記角色(例如護理師/病患),簡化依「誰說什麼」依賴的工作流程後續處理。
- 雙語語音互動: 保留英文與西班牙文間的自然代碼切換,讓逐字稿反映實際語音,而非強制單一語言。
常見問題
即時示範代理與 API 可建置的代理相同嗎?
是的。頁面註明,即時示範中顯示的支援代理是基於 Voice Agent API 建置的——與您可部署的相同。
示範代理是否支援其他產品?
否。頁面指出,該代理僅提供 AssemblyAI 產品 的客戶支援。
代理能否回傳包含不順暢的逐字稿?
範例顯示,逐字稿生成可被提示包含不順暢資訊,例如填充詞、重複、重新開始、結巴及非正式語音。
逐字稿能否包含非語音音訊標籤?
是的。範例顯示「音訊標籤」,以及逐字稿生成中將嗶聲包含為標籤的情境。
它能否處理多語言或代碼切換?
頁面包含語言偵測範例,並保留英語與西班牙語間的自然代碼切換。
替代方案
- 可設定標點/說話者分離的語音轉文字 API:若主要需求為轉錄,具說話者分離的標準語音轉文字 API 可作為替代;不過,您可能需額外工作來複製此處所示的逐字稿提示控制及音訊標記行為。
- 通用語音代理框架(LLM 協調 + 語音模型):您亦可採用結合串流 ASR/TTS 與 LLM 的語音代理框架。這可能將提示驅動的逐字稿格式化及結構化輸出的負擔轉移至您自己的管線。
- 客戶支援 IVR/語音平台:用於支援熱線自動化,IVR 式平台可處理常見通話流程,但可能無法提供相同逐字稿層級控制(例如逐字不順暢、音訊標籤、發言者角色標記),這些用於下游分析。
- 具發言者標記的會議/通話轉錄工具:這些工具可產生具發言者歸屬的逐字稿;您可依其是否支援 API 範例所示的不順暢捕捉程度及可設定轉錄行為來比較。
替代品
OpenAI Realtime API
使用 OpenAI Realtime API 建立低延遲、多模態語音與即時音訊體驗,支援瀏覽器語音代理與 WebSocket 即時轉錄。
Lemon
Lemon AI 語音代理,將語音指令轉換為已完成的任務,管理訊息、研究、委派工作,無需切換應用程式。
Speech to Text Converter Online
一個免費的線上工具,可將音訊和視訊檔案轉換為超過45種語言的準確文字記錄。它支援多種檔案格式,無需下載或註冊。
Pewbeam
Pewbeam 會即時聆聽講道內容,自動辨識聖經經文並立刻顯示在螢幕上,協助牧師與投影團隊無需輸入點擊。
Dictato
Dictato 是 macOS 離線語音轉文字工具,將轉寫即時插入你正在輸入的任何 App;支援 Whisper、Parakeet 與 Apple 引擎。
PXZ AI
一個集成圖像、視頻、語音、寫作和聊天工具的全能AI平台,以增強創造力和協作。