Type4Me 是什么?
Type4Me 是一款 macOS 语音输入工具,提供实时语音转文本识别,并可选使用基于 LLM 的文本处理。它支持本地(离线)和云端识别引擎,并设计为使用本地存储的凭证和识别历史运行。
其核心目的是帮助用户将口述中文(以及使用可用本地模型的双语中英)转换为文本,使用本地识别时可实现更快的设备端推理,同时在使用云端模型时支持可配置的基于提示的工作流。
主要特性
- 本地语音识别(离线):使用 SherpaOnnx 引擎(Paraformer/Zipformer)进行设备端识别,无需 API 密钥、云账号设置或网络依赖。
- 云端流式识别:连接 Volcengine(豆包)流式 ASR,在说话时生成文本,支持性能模式,可使用双通道识别后优化完整录音。
- 多种处理模式(包括自定义提示):内置模式涵盖快速实时打字、性能导向的双通道流程、英文翻译、提示优化,以及命令模式(语音可指示 LLM 处理选中文本和剪贴板内容);用户也可编写自定义提示。
- 提示上下文变量:提示模板支持变量,如 {text}(识别语音)、{selected}(录音开始时选中文本)和 {clipboard}(录音开始时剪贴板内容),实现“语音变命令”工作流。
- 本地数据存储:凭证保存在
~/Library/Application Support/Type4Me/credentials.json(权限 0600),识别历史存储在本地 SQLite 数据库中,支持按日期范围导出为 CSV。 - ASR 词汇管理:添加热词(如专有名词)提升识别准确率,并支持短语替换(如口述邮件标签替换为真实地址)。
如何使用 Type4Me
- 在 macOS 14+ 上安装:下载 Type4Me v1.2.0 的 DMG,将 Type4Me.app 拖入 Applications。首次启动可能显示 macOS 非 App Store 应用的標準安全警告,可通过系统设置或终端
xattr解决。 - 选择识别引擎:
- 仅云端安装:DMG 流程支持云端识别引擎。
- 本地离线识别(可选):若从源码构建,可启用本地 Paraformer 引擎,并将 ASR 模型文件下载至
~/Library/Application Support/Type4Me/Models/。
- 配置云端引擎和密钥:首次运行向导中,按照仓库设置指南输入 Volcengine App Key、Access Key 和 Resource ID。
- 配置模式和快捷键:在设置中选择本地/Paraformer 或云端引擎,然后使用内置模式或自定义提示。每种模式可绑定独立全局快捷键,支持“按住说话”或“单击开始/停止”。
使用场景
- 无可靠网络环境下的离线听写:使用本地 Paraformer(SherpaOnnx)引擎,完全设备端转写语音,无需 API 密钥。
- 最小延迟的实时打字:使用 Quick 模式,识别结果就绪即插入。
- 双语输出工作流:使用双语本地模型,口述中文语音,通过 English Translation 模式输出英文翻译。
- 针对当前查看内容的语音命令:在编辑器中选中文本,按绑定快捷键,说出命令(如“翻译选中文本”),提示接收
{selected}和{clipboard}上下文。 - 使用领域特定词汇提升准确率:添加组织名、产品名或技术术语作为 ASR 热词,并使用短语替换处理如邮件地址等重复敏感格式。
常见问题
-
为什么 macOS 首次启动时会警告? macOS 在打开非 App Store 来源的 App 时会显示安全警告。仓库提供了两种允许打开的方法(推荐系统设置,或终端
xattr -d com.apple.quarantine)。 -
本地识别需要 API 密钥吗? 不需要。使用基于 SherpaOnnx 的本地引擎时,识别在设备上运行,无需 API 密钥或云账号。
-
凭证和识别历史存储在哪里? 凭证本地保存至
~/Library/Application Support/Type4Me/credentials.json,权限 0600。识别历史存储在本地 SQLite 数据库中,可按日期范围导出为 CSV。 -
可以自定义识别文本的处理方式吗? 可以。Type4Me 内置多种模式,并支持自定义提示模板。提示变量包括
{text}、{selected}和{clipboard}。 -
预构建 DMG 支持本地识别吗? 仓库说明 DMG 下载版支持云端识别引擎。本地离线识别需从源码构建,并下载相应的 SherpaOnnx 模型文件。
替代方案
- macOS 内置 Dictation:便捷的原生语音转文本选项,通常在集成基于提示的 LLM 处理和离线引擎选择方面受限。
- 本地/离线语音转文本工具(ASR 应用或 CLI):可像 Type4Me 本地模式一样无需网络运行,但可能不提供相同的提示驱动模式及快捷键/剪贴板上下文工作流。
- 带 API 的云端转写平台:适合需要云模型托管准确率时,但需网络访问,通常涉及账号/API 密钥管理,不同于 Type4Me 的本地优先能力。
- 浏览器/桌面语音输入产品:专注于应用内直接听写;Type4Me 的独特工作流是将识别与可配置提示模式结合,并支持本地存储/导出识别历史。
替代品
Tactiq
Tactiq 是一款 AI 会议助手,提供实时转录、AI 摘要、行动项和 Google Meet、Zoom 和 Teams 的自定义 AI 提示。
Tavus
Tavus 构建可在实时面对面互动中看、听并响应的 AI 系统,并通过 API 支持视频代理、数字孪生与 AI 伴侣部署。
AakarDev AI
AakarDev AI 是一个强大的平台,通过无缝的向量数据库集成简化 AI 应用程序的开发,实现快速部署和可扩展性。
Sanota
Sanota 把你的声音转成清晰优美的文字,轻松记录回忆与灵感,把想法整理成可阅读内容,支持免费开始。
BookAI.chat
BookAI允许您通过简单提供书名和作者与您的书籍进行AI聊天。
skills-janitor
skills-janitor 插件用于审计和跟踪 Claude Code 技能使用情况,并与九个聚焦的斜杠命令进行对比,零依赖。