AssemblyAI 是什麼?
AssemblyAI 提供 Speech AI 模型,用於將語音音頻轉換為文字,並從語音資料中提取洞察。網站強調串流語音轉文字功能,以及專為捕捉不僅是純文字逐字稿而設計的模型提示/配置,例如語塞、講者角色、關鍵詞、音頻標記提示,以及語言切換。
此產品定位於建置語音應用程式的團隊,包括語音代理。網站也提及文件資源,如即時轉錄和 LiveKit SDK,協助開發者將語音處理整合至語音工作流程。
主要功能
- 即時語音代理的串流語音轉文字:設計為語音產生時持續轉錄,支援語音代理工作流程,而非僅批次處理。
- 情境感知提示:提示可客製化以保留細節,例如藥物劑量準確性,並包含特定逐字稿元素(例如填充詞、重複、重新開始、結巴及非正式語音)。
- 語塞捕捉(口語「猶豫」與中斷):範例顯示產生保留填充詞(例如「嗯」、「呃」)、重複、重新開始及結巴的逐字稿,用於對話或臨床分析。
- 非語音事件的音頻標記:提示可要求標記事件,例如系統聲音(例如「嗶」聲),以保留重要非語言或信號資訊。
- 講者角色標記:提示可要求為每個講者輪次標記角色(例如「NURSE」、「PATIENT」),以結構化多講者對話。
- 關鍵詞提取/拼寫控制:網站包含範例,透過提示處理關鍵詞(例如專有名詞拼寫如「Kelly Byrne-Donoghue」)。
- 語言偵測與語言切換支援:範例顯示講者於英文與西班牙文間切換時,保留原語言。
如何使用 AssemblyAI
- 選擇語音工作流程,例如即時轉錄或語音代理流程(網站提及即時轉錄文件及 LiveKit SDK)。
- 選擇逐字稿所需的輸出:純文字,或包含語塞、非語音音頻標記、講者角色、關鍵詞或語言切換的結構化輸出。
- 使用提示/配置範例,要求符合使用案例的逐字稿格式與細節層級(例如藥物導向的臨床病史 vs. 對話分析)。
使用案例
- 語音代理對話轉錄,含詳細說話行為:產生包含填充詞、重複、重新開始及結巴的逐字稿,用於後續對話分析。
- 保留藥物細節的臨床病史轉錄:產生準確捕捉藥物名稱與劑量,並保留語塞作為有意義資料的逐字稿。
- 通話或 IVR 轉錄,含音頻事件標記:包含非語音事件標記,例如系統提示或嗶聲,讓逐字稿反映音頻中的信號。
- 多講者訪談,含角色歸屬:為每個輪次標記講者角色(例如護士 vs. 病患),以結構化逐字稿供審核或文件使用。
- 雙語對話,中途語言切換:保留英文/西班牙文語言切換中的口語模式,而非規範化為單一語言。
常見問題
-
AssemblyAI 是否支援語音代理的即時轉錄? 網站強調專為語音代理工作流程設計的串流語音轉文字,並提及「即時轉錄」資源。
-
逐字稿是否可包含純文字以外的內容? 是。範例顯示提示要求包含語塞、非語音音頻標記、專有名詞/關鍵詞處理、講者角色標記及語言切換保留。
-
逐字稿如何處理語塞? 網站顯示範例,提示指示模型在逐字稿中包含填充詞、重複、重新開始及結巴。
-
輸出是否可包含講者角色? 網站包含範例,要求標記講者輪次角色(例如「Speaker [Nurse]」、「Speaker [Patient]」)。
-
是否支援語言偵測與語言切換? 網站包含範例,顯示語言偵測並保留自然的英文/西班牙文語言切換。
替代方案
- 其他雲端提供者的語音轉文字 API:通常提供串流逐字稿與說話者區分等功能,但保留口吃、音訊事件標籤或結構化提示驅動輸出的可靠性可能有所差異。
- 開源語音辨識工具組:適合自託管逐字稿需求,但需額外努力才能重現 AssemblyAI 網站展示的提示驅動格式(口吃、說話者角色、語言切換保留)。
- 內建逐字稿的語音代理平台:部分平台直接將逐字稿整合至代理框架;比較其逐字稿格式的可設定性,以及是否支援相同逐字稿元素(例如口吃與標籤)。
- 通用音訊轉文字管線(批次逐字稿工具):通常更適合錄音/批次檔案;AssemblyAI 強調的即時語音代理使用案例,可能需不同工具。
替代品
Speech to Text Converter Online
一個免費的線上工具,可將音訊和視訊檔案轉換為超過45種語言的準確文字記錄。它支援多種檔案格式,無需下載或註冊。
Dictato
Dictato 是 macOS 離線語音轉文字工具,將轉寫即時插入你正在輸入的任何 App;支援 Whisper、Parakeet 與 Apple 引擎。
Memo AI
由人工智慧驅動的轉錄服務,將音頻和視頻文件轉換為文本。
Sanota
Sanota 將你的語音轉成清晰又好看的文字,輕鬆記下回憶與靈感,免從空白頁開始;可免費開始。
OpenAI Realtime API
使用 OpenAI Realtime API 建立低延遲、多模態語音與即時音訊體驗,支援瀏覽器語音代理與 WebSocket 即時轉錄。
Pewbeam
Pewbeam 會即時聆聽講道內容,自動辨識聖經經文並立刻顯示在螢幕上,協助牧師與投影團隊無需輸入點擊。