UStackUStack
Type4Me icon

Type4Me

Type4Me 是 macOS 语音输入工具,支持实时转写,并可选用 LLM 提示处理文本;支持本地离线与云端流式引擎。

Type4Me

Type4Me 是什么?

Type4Me 是一款 macOS 语音输入工具,提供实时语音转文本识别,并可选使用基于 LLM 的文本处理。它支持本地(离线)和云端识别引擎,并设计为使用本地存储的凭证和识别历史运行。

其核心目的是帮助用户将口述中文(以及使用可用本地模型的双语中英)转换为文本,使用本地识别时可实现更快的设备端推理,同时在使用云端模型时支持可配置的基于提示的工作流。

主要特性

  • 本地语音识别(离线):使用 SherpaOnnx 引擎(Paraformer/Zipformer)进行设备端识别,无需 API 密钥、云账号设置或网络依赖。
  • 云端流式识别:连接 Volcengine(豆包)流式 ASR,在说话时生成文本,支持性能模式,可使用双通道识别后优化完整录音。
  • 多种处理模式(包括自定义提示):内置模式涵盖快速实时打字、性能导向的双通道流程、英文翻译、提示优化,以及命令模式(语音可指示 LLM 处理选中文本和剪贴板内容);用户也可编写自定义提示。
  • 提示上下文变量:提示模板支持变量,如 {text}(识别语音)、{selected}(录音开始时选中文本)和 {clipboard}(录音开始时剪贴板内容),实现“语音变命令”工作流。
  • 本地数据存储:凭证保存在 ~/Library/Application Support/Type4Me/credentials.json(权限 0600),识别历史存储在本地 SQLite 数据库中,支持按日期范围导出为 CSV。
  • ASR 词汇管理:添加热词(如专有名词)提升识别准确率,并支持短语替换(如口述邮件标签替换为真实地址)。

如何使用 Type4Me

  1. 在 macOS 14+ 上安装:下载 Type4Me v1.2.0 的 DMG,将 Type4Me.app 拖入 Applications。首次启动可能显示 macOS 非 App Store 应用的標準安全警告,可通过系统设置或终端 xattr 解决。
  2. 选择识别引擎
    • 仅云端安装:DMG 流程支持云端识别引擎。
    • 本地离线识别(可选):若从源码构建,可启用本地 Paraformer 引擎,并将 ASR 模型文件下载至 ~/Library/Application Support/Type4Me/Models/
  3. 配置云端引擎和密钥:首次运行向导中,按照仓库设置指南输入 Volcengine App Key、Access Key 和 Resource ID。
  4. 配置模式和快捷键:在设置中选择本地/Paraformer 或云端引擎,然后使用内置模式或自定义提示。每种模式可绑定独立全局快捷键,支持“按住说话”或“单击开始/停止”。

使用场景

  • 无可靠网络环境下的离线听写:使用本地 Paraformer(SherpaOnnx)引擎,完全设备端转写语音,无需 API 密钥。
  • 最小延迟的实时打字:使用 Quick 模式,识别结果就绪即插入。
  • 双语输出工作流:使用双语本地模型,口述中文语音,通过 English Translation 模式输出英文翻译。
  • 针对当前查看内容的语音命令:在编辑器中选中文本,按绑定快捷键,说出命令(如“翻译选中文本”),提示接收 {selected}{clipboard} 上下文。
  • 使用领域特定词汇提升准确率:添加组织名、产品名或技术术语作为 ASR 热词,并使用短语替换处理如邮件地址等重复敏感格式。

常见问题

  • 为什么 macOS 首次启动时会警告? macOS 在打开非 App Store 来源的 App 时会显示安全警告。仓库提供了两种允许打开的方法(推荐系统设置,或终端 xattr -d com.apple.quarantine)。

  • 本地识别需要 API 密钥吗? 不需要。使用基于 SherpaOnnx 的本地引擎时,识别在设备上运行,无需 API 密钥或云账号。

  • 凭证和识别历史存储在哪里? 凭证本地保存至 ~/Library/Application Support/Type4Me/credentials.json,权限 0600。识别历史存储在本地 SQLite 数据库中,可按日期范围导出为 CSV。

  • 可以自定义识别文本的处理方式吗? 可以。Type4Me 内置多种模式,并支持自定义提示模板。提示变量包括 {text}{selected}{clipboard}

  • 预构建 DMG 支持本地识别吗? 仓库说明 DMG 下载版支持云端识别引擎。本地离线识别需从源码构建,并下载相应的 SherpaOnnx 模型文件。

替代方案

  • macOS 内置 Dictation:便捷的原生语音转文本选项,通常在集成基于提示的 LLM 处理和离线引擎选择方面受限。
  • 本地/离线语音转文本工具(ASR 应用或 CLI):可像 Type4Me 本地模式一样无需网络运行,但可能不提供相同的提示驱动模式及快捷键/剪贴板上下文工作流。
  • 带 API 的云端转写平台:适合需要云模型托管准确率时,但需网络访问,通常涉及账号/API 密钥管理,不同于 Type4Me 的本地优先能力。
  • 浏览器/桌面语音输入产品:专注于应用内直接听写;Type4Me 的独特工作流是将识别与可配置提示模式结合,并支持本地存储/导出识别历史。
Type4Me | UStack