doing 是什麼?
doing 是一款 Mac 應用程式,提供本地且以隱私為設計核心的語音輸入與轉錄功能。按住熱鍵即可開始聆聽,實時轉錄語音,並將結果貼到目前游標位置——讓你在使用 AI 工具或任何文字欄位時,能用語音取代打字。
核心目的是本地轉錄,無雲端上傳且無需帳號。產品也支援將截圖附加到錄音,並提供可設定後處理(「Skills」)功能,在貼上轉錄前執行。
主要功能
- 按住熱鍵語音轉錄:按住熱鍵開始聆聽,邊說邊實時轉錄文字;放開即貼到游標位置。
- 本地且私密音訊處理:設計確保你的語音永不離開 Mac——無雲端轉錄、無帳號、無音訊上傳。
- 附加截圖至轉錄:按住熱鍵時,可拖拉螢幕上任何矩形區域擷取截圖,並連結至相同轉錄工作階段。
- 系統級貼上至目前游標:適用於任何可輸入文字的地方(瀏覽器、編輯器、終端機等),貼到目前游標位置。
- YOLO Mode 快速交給 AI 提示:啟用後,doing 在貼上轉錄後自動按 Return,無需額外步驟即可執行提示。
- Skills 轉錄後處理:定義貼上前處理轉錄的動作(範例包括格式化、摘要、轉為程式碼提示或以表情符號取代文字),並依貼上位置提供「應用程式感知」行為。
- 引擎選項與基準測試:內建本地引擎(Parakeet),可使用自帶 API 金鑰連多個雲端引擎;包含基準測試工具,用相同音訊比較供應商。
- 錄音時音訊降音:錄音開始時自動淡出音樂/音訊,停止後恢復。
如何使用 doing
- 在 Mac 下載並安裝(列為 macOS 14+ Apple Silicon)。
- 在文字欄位按住設定的熱鍵(顯示為 fn Talk)開始聆聽。
- 邊說邊看轉錄實時更新。
- 放開熱鍵貼上轉錄至游標位置。
- 選用:錄音時拖拉擷取截圖,及/或啟用 YOLO Mode 讓 doing 在貼上後按 Return。
- 若需不同轉錄行為,可設定 Skills 並(適用時)選擇轉錄引擎——內建本地選項或透過自有 API 金鑰的雲端引擎。
使用情境
- 從編輯器語音對話 AI 程式碼助理:使用語音轉錄與系統級貼上,讓轉錄直接落在工作輸入框,按 Return(搭配 YOLO Mode)即可傳送。
- 為不同應用程式準備結構化訊息:使用應用程式感知 Skills,重寫或格式化轉錄,適合如電子郵件(格式化)或生產力工具(摘要為項目符號)。
- 帶視覺脈絡描述 Bug:錄音語音時擷取一或多張截圖,讓視覺細節附加至轉錄工作階段。
- 從語音意圖產生程式碼導向提示:使用程式碼提示 Skills,將語音描述轉為適合程式碼助理的技術指示。
- 並排轉錄測試:使用內建基準工具,以相同音訊樣本比較本地引擎與其他引擎,依速度/成本權衡選擇。
常見問題
-
doing 會上傳我的音訊至雲端嗎? 頁面說明 doing 本地轉錄,無音訊上傳且無雲端轉錄。
-
使用 doing 需要帳號嗎? 頁面表示無需帳號。
-
YOLO Mode 是什麼?它如何改變工作流程? YOLO Mode 在貼上轉錄後自動按 Return,讓 AI 提示立即執行。
-
doing 可同時處理截圖與語音嗎? 可以。按住熱鍵時拖拉矩形擷取截圖,會自動附加至轉錄。
-
我能選擇不同轉錄引擎嗎? 頁面表示 doing 內建本地引擎(Parakeet),可使用自帶 API 金鑰連雲端引擎;也包含基準工具用相同音訊測試引擎。
替代方案
- macOS 內建離線語音輸入(系統語音輸入):提供一般文字輸入的語音轉文字,但缺乏 doing 描述的快捷鍵驅動轉錄至游標工作流程、截圖附加,或後處理「Skills」。
- 雲端轉錄服務/API:通常需上傳音訊,可能涉及帳號或按使用計費;doing 的定位為本地、無音訊上傳,並支援自帶金鑰引擎(選用)。
- 其他收取訂閱費的 AI 語音輸入工具:本頁將 doing 的一次性 $49 定價與其他每月收取 $8–15 的工具比較;替代方案的隱私模式(雲端 vs 本地)與持續費用可能不同。
- 瀏覽器/編輯器快捷鍵語音輸入擴充功能:可在特定應用程式中減少打字,但 doing 呈現為系統級,可在任何可打字處使用(不限單一網站或編輯器)。
替代品
Speech to Text Converter Online
一個免費的線上工具,可將音訊和視訊檔案轉換為超過45種語言的準確文字記錄。它支援多種檔案格式,無需下載或註冊。
Dictato
Dictato 是 macOS 離線語音轉文字工具,將轉寫即時插入你正在輸入的任何 App;支援 Whisper、Parakeet 與 Apple 引擎。
Memo AI
由人工智慧驅動的轉錄服務,將音頻和視頻文件轉換為文本。
Sanota
Sanota 將你的語音轉成清晰又好看的文字,輕鬆記下回憶與靈感,免從空白頁開始;可免費開始。
OpenAI Realtime API
使用 OpenAI Realtime API 建立低延遲、多模態語音與即時音訊體驗,支援瀏覽器語音代理與 WebSocket 即時轉錄。
Pewbeam
Pewbeam 會即時聆聽講道內容,自動辨識聖經經文並立刻顯示在螢幕上,協助牧師與投影團隊無需輸入點擊。