LocalClicky icon

LocalClicky

LocalClicky 是一款适用于 macOS 的本地语音助手,可通过语音控制应用、文件、提醒事项和浏览器操作。支持唤醒词、离线转写、基于 Ollama 的推理及可选屏幕视觉识别,无需云端 API 或订阅。

LocalClicky

LocalClicky 一览

LocalClicky 是一款 macOS 语音助手,可通过菜单栏在本地控制 Mac。其 README 描述了一种离线设计,会将转写、推理、屏幕分析和语音输出保留在用户设备上,而不是把语音或截图发送到云服务。

该项目围绕唤醒词会话和自然语言命令设计。触发短语开始录音后,助手可以处理请求、调用工具、在需要时检查屏幕,并持续对话,直到你结束会话或因长时间无操作而超时。

核心能力

优先使用菜单栏的界面

作为 macOS 菜单栏应用运行,因此会保持不出现在 Dock 中,同时仍可用于语音控制。

基于会话的语音控制

使用唤醒短语开始一个会话,然后保持活动状态,直到你结束它或静音超时,因此后续命令无需重复唤醒短语。

本地模型流水线

结合离线转写、本地 AI 推理和可选屏幕视觉识别来理解口头请求并执行操作。

Mac 自动化操作

支持系统操作,例如应用控制、音量调节、文件操作、shell 命令、Spotify 控制、提醒事项以及 Chrome JavaScript 注入。

感知屏幕的交互

按需截取屏幕截图,并使用视觉模型识别可点击目标或描述屏幕内容。

自动停止录音

尽可能使用语音活动检测和硬性上限回退来停止录音,从而减少手动中止的需要。

实际使用场景

  • 免手操作的 Mac 控制

    当你希望通过语音打开应用、调节音量、管理文件或启动浏览器操作,并且希望工作流保持在本机本地时,可以使用 LocalClicky。

  • 屏幕引导式交互

    当命令依赖当前 UI 状态时,可以让助手告诉你屏幕上有什么、找到目标元素,并点击它。

  • 日常命令执行

    当你希望把提醒事项、Spotify 控制和 shell 命令结合起来,使用自然语言请求完成个人助手与自动化的混合工作流时,可以使用它。

  • 多步骤语音会话

    使用会话模式连续下达后续指令,例如在第一条命令执行后继续细化任务,而无需重复唤醒词。

  • 本地 AI 助手原型

    将该仓库作为一个离线、本地优先语音助手栈的参考实现,它结合了唤醒词检测、转写、模型推理和自动化。

Pros and Cons

Pros

  • 在用户设备上本地运行,README 中没有提到云端 API、API 密钥或订阅。
  • 将唤醒词检测、转写、工具使用和屏幕视觉识别整合到单一的语音驱动工作流中。
  • 支持广泛的 Mac 任务,从系统控制和文件处理到提醒事项、Spotify 和浏览器操作。
  • 包含会话记忆和多轮工具调用,适合后续命令和迭代式请求。
  • README 提供了具体的安装步骤、模型名称和权限要求,有助于复现性配置。

Cons

  • README 依赖多个本地组件,包括 Whisper、Ollama 以及可选的静音检测,因此设置比单一应用安装更复杂。
  • 屏幕交互和自动化需要 macOS 权限,包括麦克风、屏幕录制和辅助功能访问。
  • 文档对安装和功能的说明最充分;对于协作工作流或长期项目限制则提得较少。

FAQ

运行 LocalClicky 需要什么?

LocalClicky 可在 macOS 上运行,搭配本地 Whisper 转写后端、用于推理和视觉的 Ollama,以及 macOS 内置文本转语音。README 还列出了额外的 macOS 权限要求,包括麦克风、屏幕录制,以及虚拟环境中 Python 二进制文件的辅助功能访问权限。

语音会话工作流程是怎样的?

README 将 LocalClicky 描述为一款菜单栏应用:它会在唤醒词后开始录音,在可用语音活动检测时会在静音后自动停止,并且可以在一个会话中持续工作,而不必重复唤醒词。

LocalClicky 可以处理哪些操作?

它可以打开和退出应用、调节音量、控制 Spotify、管理文件、运行 shell 命令、向 Chrome 注入 JavaScript、创建提醒事项,并使用截图和视觉模型来点击或识别屏幕上的 UI 元素。

LocalClicky 会保留对话历史吗?

项目 README 说明,助手在会话期间会保留最近 10 轮交互作为对话记忆。

LocalClicky 是免费使用的吗?

该仓库被描述为一个本地离线项目,README 中没有提到云端 API、API 密钥或订阅。GitHub 的定价页面确认 GitHub 本身提供免费计划和付费计划,但 LocalClicky 仓库并未描述单独的产品价格。

Quick Facts

类别
开发者工具
平台
macOS
主要用途
用于 Mac 自动化的离线语音控制
来源域名
github.com
运行时
带有本地 Whisper 和 Ollama 组件的 Python
价格
仓库中未描述单独的产品定价