doing 是什么?
doing 是一款 Mac 应用,支持本地语音输入与转写,专为隐私设计。按住热键即可开始监听,实时转写语音,并将结果粘贴到当前光标位置——让你在使用 AI 工具或任何文本框时,说话代替打字。
核心功能是端侧转写,无需上传云端、无需账号。产品还支持为录音附加截图,并在转写粘贴前提供可配置的后处理(“Skills”)。
主要功能
- 按住热键语音转写:按住热键开始监听,说话时实时转写文本;松开即粘贴到光标位置。
- 本地 & 隐私音频处理:设计确保你的语音永不离开 Mac——无云端转写、无账号、无音频上传。
- 附加到转写的截图捕获:按住热键时,可在屏幕任意位置拖拽矩形捕获截图,并链接到同一转写会话。
- 系统级粘贴到活动光标:适用于任何可输入位置(浏览器、编辑器、终端等),粘贴到当前光标。
- YOLO 模式快速交给 AI 提示:启用后,doing 在粘贴转写后按下 Return,无需额外步骤运行提示。
- Skills 用于转写后处理:定义粘贴前处理转写的动作(示例包括格式化、总结、转为代码提示或替换文本为 emoji),并根据粘贴位置提供“应用感知”行为。
- 引擎选项与基准测试:内置端侧引擎(Parakeet),支持自带 API 密钥使用多种云引擎;包含基准工具,用相同音频测试各提供商。
- 录音时音频降音:录音开始时自动淡出音乐/音频,停止后恢复。
如何使用 doing
- 在 Mac 上下载安装(列出 macOS 14+ Apple Silicon)。
- 在文本框中按住配置热键(显示为 fn Talk)开始监听。
- 说话时转写实时更新。
- 松开热键粘贴转写到光标位置。
- 可选:录音时拖拽矩形捕获截图,和/或启用 YOLO 模式让 doing 在粘贴后按 Return。
- 如需不同转写行为,配置 Skills 并(适用时)选择转写引擎——内置端侧选项或通过自有 API 密钥的云引擎。
使用场景
- 从编辑器向 AI 编码助手说话:使用语音转写和系统级粘贴,让转写直接落入工作输入框,然后按 Return(YOLO 模式)发送。
- 为不同应用准备结构化消息:使用应用感知 Skills 重写或格式化转写,如邮件(格式化)或生产力工具(总结为项目符号)。
- 带视觉上下文描述 bug:录音时捕获一或多张截图,让视觉细节附加到转写会话。
- 从口述意图生成代码提示:使用代码提示 Skill 将口述描述转为适合编码助手的指令。
- 并行转写测试:使用内置基准工具,比较端侧引擎与其他引擎在相同音频上的表现,根据速度/成本权衡选择。
常见问题
-
doing 会上传我的音频到云端吗? 页面说明 doing 本地转写,无音频上传、无云端转写。
-
使用 doing 需要账号吗? 无需账号,按页面所述。
-
YOLO 模式是什么,它如何改变工作流? YOLO 模式粘贴转写后自动按 Return,让 AI 提示立即运行。
-
doing 能同时处理截图和语音吗? 可以。按住热键时,拖拽矩形捕获截图,会自动附加到转写。
-
我能选择不同转写引擎吗? 页面指出 doing 内置本地引擎(Parakeet),支持自带 API 密钥使用云引擎;还包含基准工具,用相同音频测试引擎。
替代方案
- macOS 内置的端侧语音输入(系统听写):提供通用打字的语音转文字,但不具备 doing 描述的快捷键驱动转写到光标工作流、截图附件或后期处理“Skills”。
- 云端转写服务/API:通常需要上传音频,可能涉及账号或按使用付费;doing 的定位是本地/无音频上传,并可选自带密钥引擎。
- 其他收取订阅费的 AI 语音输入工具:页面将 doing 的一次性 $49 定价与描述为每月 $8–15 的其他工具对比;替代方案在隐私模式(云端 vs 本地)和 recurring 成本上可能不同。
- 浏览器/编辑器快捷键语音输入扩展:可在特定应用中减少打字,但 doing 被呈现为系统级,支持任何可打字的位置(不受限于单一站点或编辑器)。
替代品
Speech to Text Converter Online
一个免费的在线工具,可将音频和视频文件转换为45种以上语言的准确文本记录。它支持多种文件格式,无需下载或注册。
Dictato
Dictato 是 macOS 离线语音转文字应用:支持 Whisper、Parakeet 与 Apple 引擎,不走云端并无超时,将文字插入任意输入框。
Memo AI
由人工智能驱动的转录服务,将音频和视频文件转换为文本。
Sanota
Sanota 把你的声音转成清晰优美的文字,轻松记录回忆与灵感,把想法整理成可阅读内容,支持免费开始。
OpenAI Realtime API
使用 OpenAI Realtime API 构建低延迟、多模态语音与实时音频体验,支持浏览器语音代理与 WebSocket 实时转录。
Pewbeam
Pewbeam 实时聆听讲道并自动识别圣经经文,瞬间投屏显示,帮助牧师与投影团队无需输入即可保持流程顺畅。