UStackUStack
Type4Me icon

Type4Me

Type4Me 是 macOS 語音輸入工具,提供即時逐字稿,支援離線本地辨識與雲端串流引擎,並可選擇 LLM 提示處理文字。

Type4Me

Type4Me 是什麼?

Type4Me 是 macOS 語音輸入工具,提供即時語音轉文字辨識,並支援 LLM 文字處理。它支援本地(離線)與雲端辨識引擎,並設計為本地儲存憑證與辨識歷史。

其核心目的是幫助使用者將口說中文(並透過可用本地模型支援中英雙語)轉換為文字,使用本地辨識時具更快裝置端推論速度,同時使用雲端模型時可啟用可設定提示工作流程。

主要功能

  • 本地語音辨識(離線):使用 SherpaOnnx 引擎(Paraformer/Zipformer)進行裝置端辨識,無需 API 金鑰、雲端帳號設定或網路連線。
  • 雲端串流辨識:連線 Volcengine(豆包)串流 ASR,邊說邊產生文字,並具效能模式可使用雙通道辨識後以完整錄音優化。
  • 多種處理模式(含自訂提示):內建模式涵蓋快速即時輸入、效能導向雙通道流程、英文翻譯、提示優化,以及指令模式(語音可指示 LLM 處理選取文字與剪貼簿內容);使用者也可自訂提示。
  • 提示上下文變數:提示範本支援變數如 {text}(辨識語音)、{selected}(錄音開始時選取文字)及 {clipboard}(錄音開始時剪貼簿內容),實現「語音變指令」工作流程。
  • 本地資料儲存:憑證儲存於 ~/Library/Application Support/Type4Me/credentials.json(權限 0600),辨識歷史存於本地 SQLite 資料庫,並支援依日期範圍匯出 CSV。
  • ASR 詞彙管理:新增熱門詞(如專有名詞)提升辨識準確度,並支援片語替換(如說出郵件標籤後替換真實地址)。

如何使用 Type4Me

  1. 安裝於 macOS 14+:下載 Type4Me v1.2.0 DMG 並將 Type4Me.app 拖至 Applications。首次啟動可能顯示 macOS 非 App Store 應用安全警告,可透過系統設定或終端 xattr 解決。
  2. 選擇辨識引擎
    • 僅雲端安裝:DMG 流程支援雲端辨識引擎。
    • 本地離線辨識(選用):若從來源建置,可啟用本地 Paraformer 引擎並下載 ASR 模型至 ~/Library/Application Support/Type4Me/Models/
  3. 若使用雲端則設定引擎與金鑰:依 repo 設定指引,在首次執行精靈中輸入 Volcengine App Key、Access Key 及 Resource ID。
  4. 設定模式與快捷鍵:在設定中選擇本地/Paraformer 或雲端引擎,然後使用內建模式或自訂提示。每種模式可綁定專屬全域快捷鍵,並支援「按住說話」或「按一次啟停」。

使用情境

  • 無穩定網路環境的離線聽寫:使用本地 Paraformer(SherpaOnnx)引擎完全裝置端轉錄語音,無需 API 金鑰。
  • 極低延遲即時輸入:使用 Quick 模式,辨識結果準備好即插入。
  • 雙語輸出工作流程:使用雙語本地模型,以 English Translation 模式輸入中文語音並輸出英文翻譯。
  • 作用於當前檢視內容的語音指令:在編輯器選取文字,按快捷鍵說指令(如「翻譯選取文字」),讓提示接收 {selected}{clipboard} 上下文。
  • 以領域專屬詞彙提升準確度:新增組織名稱、產品名稱或技術術語為 ASR 熱門詞,並使用片語替換處理如郵件地址的重複敏感格式。

常見問題

  • 為什麼 macOS 首次啟動時會顯示警告? macOS 在開啟非 App Store 應用程式時會顯示安全性警告。專案提供兩種允許開啟的方法(建議使用系統設定,或終端機 xattr -d com.apple.quarantine)。

  • 本地辨識需要 API 金鑰嗎? 不需要。使用基於 SherpaOnnx 的本地引擎時,辨識在裝置上運行,不需 API 金鑰或雲端帳戶。

  • 憑證和辨識歷史儲存在哪裡? 憑證儲存於 ~/Library/Application Support/Type4Me/credentials.json,權限為 0600。辨識歷史儲存於本地 SQLite 資料庫,可依日期範圍匯出為 CSV。

  • 可以自訂辨識文字的處理方式嗎? 可以。Type4Me 內建多種模式,並支援自訂提示模板。提示變數包含 {text}{selected}{clipboard}

  • 預建 DMG 是否支援本地辨識? 專案說明 DMG 下載版本支援雲端辨識引擎。本地離線辨識需從原始碼建置,並下載對應的 SherpaOnnx 模型檔案。

替代方案

  • macOS 內建 Dictation:語音轉文字的便利原生選項,但通常無法整合基於提示的 LLM 處理或選擇離線引擎。
  • 本地/離線語音轉文字工具(ASR 應用程式或 CLI):像 Type4Me 本地模式一樣無需網路即可運行,但可能缺少提示驅動模式及快捷鍵/剪貼簿上下文工作流程。
  • 具 API 的雲端轉錄平台:適合需要雲端模型精準度時使用,但需網路連線且通常涉及帳戶/API 金鑰管理,不像 Type4Me 的本地優先設計。
  • 瀏覽器/桌面語音輸入產品:專注於應用程式內直接聽寫;Type4Me 的特色工作流程是結合辨識與可設定提示模式,以及本地儲存/匯出辨識歷史。
Type4Me | UStack