UStackUStack
AssemblyAI icon

AssemblyAI

AssemblyAI 提供 Speech AI 模型:語音轉文字與語音資料洞察,支援串流逐字稿,適合語音代理工作流程。

AssemblyAI

AssemblyAI 是什麼?

AssemblyAI 提供 Speech AI 模型,用於將語音音頻轉換為文字,並從語音資料中提取洞察。網站強調串流語音轉文字功能,以及專為捕捉不僅是純文字逐字稿而設計的模型提示/配置,例如語塞、講者角色、關鍵詞、音頻標記提示,以及語言切換。

此產品定位於建置語音應用程式的團隊,包括語音代理。網站也提及文件資源,如即時轉錄和 LiveKit SDK,協助開發者將語音處理整合至語音工作流程。

主要功能

  • 即時語音代理的串流語音轉文字:設計為語音產生時持續轉錄,支援語音代理工作流程,而非僅批次處理。
  • 情境感知提示:提示可客製化以保留細節,例如藥物劑量準確性,並包含特定逐字稿元素(例如填充詞、重複、重新開始、結巴及非正式語音)。
  • 語塞捕捉(口語「猶豫」與中斷):範例顯示產生保留填充詞(例如「嗯」、「呃」)、重複、重新開始及結巴的逐字稿,用於對話或臨床分析。
  • 非語音事件的音頻標記:提示可要求標記事件,例如系統聲音(例如「嗶」聲),以保留重要非語言或信號資訊。
  • 講者角色標記:提示可要求為每個講者輪次標記角色(例如「NURSE」、「PATIENT」),以結構化多講者對話。
  • 關鍵詞提取/拼寫控制:網站包含範例,透過提示處理關鍵詞(例如專有名詞拼寫如「Kelly Byrne-Donoghue」)。
  • 語言偵測與語言切換支援:範例顯示講者於英文與西班牙文間切換時,保留原語言。

如何使用 AssemblyAI

  1. 選擇語音工作流程,例如即時轉錄或語音代理流程(網站提及即時轉錄文件及 LiveKit SDK)。
  2. 選擇逐字稿所需的輸出:純文字,或包含語塞、非語音音頻標記、講者角色、關鍵詞或語言切換的結構化輸出。
  3. 使用提示/配置範例,要求符合使用案例的逐字稿格式與細節層級(例如藥物導向的臨床病史 vs. 對話分析)。

使用案例

  • 語音代理對話轉錄,含詳細說話行為:產生包含填充詞、重複、重新開始及結巴的逐字稿,用於後續對話分析。
  • 保留藥物細節的臨床病史轉錄:產生準確捕捉藥物名稱與劑量,並保留語塞作為有意義資料的逐字稿。
  • 通話或 IVR 轉錄,含音頻事件標記:包含非語音事件標記,例如系統提示或嗶聲,讓逐字稿反映音頻中的信號。
  • 多講者訪談,含角色歸屬:為每個輪次標記講者角色(例如護士 vs. 病患),以結構化逐字稿供審核或文件使用。
  • 雙語對話,中途語言切換:保留英文/西班牙文語言切換中的口語模式,而非規範化為單一語言。

常見問題

  • AssemblyAI 是否支援語音代理的即時轉錄? 網站強調專為語音代理工作流程設計的串流語音轉文字,並提及「即時轉錄」資源。

  • 逐字稿是否可包含純文字以外的內容? 是。範例顯示提示要求包含語塞、非語音音頻標記、專有名詞/關鍵詞處理、講者角色標記及語言切換保留。

  • 逐字稿如何處理語塞? 網站顯示範例,提示指示模型在逐字稿中包含填充詞、重複、重新開始及結巴。

  • 輸出是否可包含講者角色? 網站包含範例,要求標記講者輪次角色(例如「Speaker [Nurse]」、「Speaker [Patient]」)。

  • 是否支援語言偵測與語言切換? 網站包含範例,顯示語言偵測並保留自然的英文/西班牙文語言切換。

替代方案

  • 其他雲端提供者的語音轉文字 API:通常提供串流逐字稿與說話者區分等功能,但保留口吃、音訊事件標籤或結構化提示驅動輸出的可靠性可能有所差異。
  • 開源語音辨識工具組:適合自託管逐字稿需求,但需額外努力才能重現 AssemblyAI 網站展示的提示驅動格式(口吃、說話者角色、語言切換保留)。
  • 內建逐字稿的語音代理平台:部分平台直接將逐字稿整合至代理框架;比較其逐字稿格式的可設定性,以及是否支援相同逐字稿元素(例如口吃與標籤)。
  • 通用音訊轉文字管線(批次逐字稿工具):通常更適合錄音/批次檔案;AssemblyAI 強調的即時語音代理使用案例,可能需不同工具。