LocalClicky icon

LocalClicky

LocalClicky 是一款 macOS 語音助理,可在本機離線控制 App、檔案、提醒事項與瀏覽器操作,結合喚醒詞偵聽、在地轉錄、Ollama 推理與可選螢幕視覺。

LocalClicky

LocalClicky 概覽

LocalClicky 是一款 macOS 語音助理,設計用來從選單列在本機控制 Mac。其 README 描述了一種離線架構,將轉錄、推理、螢幕分析與語音輸出都留在使用者的裝置上,而不是把語音或截圖傳送到雲端服務。

此專案以喚醒詞工作階段與自然語言指令為核心。當觸發片語開始錄音後,助理可以處理請求、呼叫工具、在需要時檢查螢幕,並持續對話,直到你結束工作階段或因閒置而逾時。

核心功能

以 menubar 為優先的介面

作為 macOS 的 menubar App 執行,因此會保持在 Dock 外,但仍可隨時用語音控制。

以工作階段為基礎的語音控制

使用喚醒片語開始工作階段,之後會保持啟用直到你結束它或靜音逾時,因此後續指令不必重複喚醒詞。

本機模型管線

結合離線轉錄、本機 AI 推理與可選螢幕視覺,以理解口語請求並執行對應動作。

Mac 自動化動作

支援系統動作,例如 App 控制、音量調整、檔案操作、shell 命令、Spotify 控制、提醒事項,以及 Chrome JavaScript 注入。

具備螢幕感知的互動

可按需截圖,並使用視覺模型辨識可點擊目標或描述畫面內容。

自動停止錄音

在可行時使用語音活動偵測與硬性上限備援來停止錄音,降低手動停止的需求。

實際使用情境

  • 免手動的 Mac 控制

    當你想透過語音開啟 App、調整音量、管理檔案或啟動瀏覽器動作,同時維持工作流程留在本機時,可使用 LocalClicky。

  • 螢幕引導互動

    當指令取決於目前 UI 狀態時,可用助理詢問螢幕上顯示什麼、尋找目標元素,並在找到後點擊它。

  • 日常指令執行

    當你想同時兼顧個人助理與自動化工作流程時,可用自然語言要求建立提醒事項、控制 Spotify 與執行 shell 命令。

  • 多步驟語音工作階段

    在需要連續追問與修正的情境下,例如第一個命令執行後再微調任務,可使用工作階段模式而不必重複喚醒詞。

  • 本機 AI 助理原型

    可將此儲存庫作為離線、本機優先語音助理堆疊的參考實作,結合喚醒詞偵測、轉錄、模型推理與自動化。

Pros and Cons

Pros

  • 在使用者自己的裝置上本機執行,README 中未提及雲端 API、API 金鑰或訂閱。
  • 將喚醒詞偵測、轉錄、工具使用與螢幕視覺整合在同一個語音驅動工作流程中。
  • 可支援多種 Mac 任務,從系統控制與檔案處理到提醒事項、Spotify 與瀏覽器操作。
  • 具備工作階段記憶與多輪工具呼叫,方便後續指令與迭代式請求。
  • README 提供具體的安裝步驟、模型名稱與權限需求,有助於重現式設定。

Cons

  • README 依賴多個本機元件,包括 Whisper、Ollama,以及可選的靜音偵測,因此安裝設定比單一 App 更繁瑣。
  • 螢幕互動與自動化需要 macOS 權限,包括麥克風、螢幕錄製與輔助使用權限。
  • 文件最強的是安裝與功能說明;對協作流程或長期專案限制的細節相對較少。

FAQ

我需要什麼才能執行 LocalClicky?

LocalClicky 設定為在 macOS 上執行,搭配本機 Whisper 轉錄後端、Ollama 進行推理與視覺處理,以及 macOS 內建的文字轉語音。README 另列出麥克風、螢幕錄製,以及虛擬環境中 Python 二進位檔的輔助使用權限。

語音工作階段流程如何運作?

README 將 LocalClicky 描述為一款 menubar App,在喚醒詞後開始錄音;若可使用語音活動偵測,會在偵測到靜音時自動停止,並且可在同一個工作階段中持續對話,而不必重複喚醒詞。

LocalClicky 可以處理哪些類型的動作?

它可以開啟與結束 App、調整音量、控制 Spotify、管理檔案、執行 shell 命令、向 Chrome 注入 JavaScript、建立提醒事項,並可透過螢幕截圖與視覺模型來點擊或辨識畫面上的 UI 元素。

LocalClicky 會保留對話紀錄嗎?

專案 README 表示,助理會在工作階段期間保留最近 10 輪對話作為對話記憶。

LocalClicky 是免費使用的嗎?

此儲存庫被呈現為本機離線專案,README 中未提及雲端 API、API 金鑰或訂閱。GitHub 定價頁面確認 GitHub 本身提供免費方案與付費方案,但 LocalClicky 的儲存庫並未描述獨立的產品價格。

Quick Facts

類別
開發工具
平台
macOS
主要用途
用於 Mac 自動化的離線語音控制
來源網域
github.com
執行環境
搭配本機 Whisper 與 Ollama 元件的 Python
定價
儲存庫未描述獨立的產品定價