LocalClicky icon

LocalClicky

LocalClickyは、Mac上でローカル動作するmacOS音声アシスタント。アプリ、ファイル、リマインダー、ブラウザ操作を音声で制御でき、ウェイクワード、ローカル文字起こし、Ollamaベースの推論、任意の画面認識に対応。

LocalClicky

LocalClicky の概要

LocalClicky は、メニューバーから Mac をローカルで操作できるように設計された macOS 音声アシスタントです。README では、文字起こし、推論、画面解析、音声出力をユーザーのマシン上で完結させ、音声やスクリーンショットをクラウドサービスへ送信しないオフライン設計が説明されています。

このプロジェクトは、ウェイクワードによるセッションと自然言語コマンドを中心に構成されています。トリガーフレーズで録音を開始すると、アシスタントは要求を処理し、ツールを呼び出し、必要に応じて画面を確認し、セッションを終了するか無操作でタイムアウトするまで会話を継続できます。

主な機能

Menubar 中心のインターフェース

macOS の menubar アプリとして動作するため、Dock に常駐せずに音声操作を利用できます。

セッションベースの音声操作

ウェイクフレーズでセッションを開始し、終了するか無音で切れるまでアクティブなままなので、続けて指示してもトリガーフレーズを繰り返す必要がありません。

ローカルモデルのパイプライン

オフラインの文字起こし、ローカル AI 推論、任意の画面認識を組み合わせて、話し言葉の指示を解釈して実行します。

Mac 自動化アクション

アプリ操作、音量変更、ファイル操作、シェルコマンド、Spotify 操作、リマインダー、Chrome への JavaScript 注入などのシステム操作をサポートします。

画面認識対応の対話

必要に応じてスクリーンショットを取得し、vision モデルでクリック対象を特定したり、画面上の内容を説明したりできます。

自動録音停止

可能な場合は音声活動検出と、最終手段としてのハード上限を使って録音を停止し、手動での停止操作を減らします。

実用的なユースケース

  • ハンズフリーの Mac 操作

    アプリを開く、音量を変える、ファイルを管理する、ブラウザ操作を起動するなどを音声で行いながら、ワークフローを端末内に保ちたいときに LocalClicky を使います。

  • 画面ガイド付きの対話

    画面に何が表示されているかを尋ねたり、対象要素を見つけたり、現在の UI 状態に依存するコマンドでその要素をクリックしたりする用途に使います。

  • 日常的なコマンド実行

    リマインダー、Spotify 操作、シェルコマンドなどを自然言語で依頼し、個人アシスタントと自動化を組み合わせたワークフローに使います。

  • 複数ステップの音声セッション

    最初のコマンド実行後に内容を詰めるような連続指示を、ウェイクフレーズを繰り返さずに行いたいときのセッションモードに使います。

  • ローカル AI アシスタントの試作

    ウェイクワード検出、文字起こし、モデル推論、自動化を組み合わせた、オフラインでローカルファーストな音声アシスタントの実装例としてリポジトリを参照できます。

Pros and Cons

Pros

  • ユーザーのマシン上でローカルに動作し、README にクラウド API、API キー、サブスクリプションの記載がありません。
  • ウェイクワード検出、文字起こし、ツール利用、画面認識を 1 つの音声駆動ワークフローにまとめています。
  • システム操作やファイル操作から、リマインダー、Spotify、ブラウザ操作まで、Mac の幅広いタスクをサポートします。
  • セッションメモリと複数ラウンドのツール呼び出しにより、続きの指示や反復的な依頼に対応できます。
  • README には具体的なインストール手順、モデル名、必要権限が記載されており、再現性のあるセットアップに役立ちます。

Cons

  • README は Whisper、Ollama、任意の無音検出など複数のローカルコンポーネントに依存しているため、単体アプリのインストールよりセットアップが複雑です。
  • 画面操作と自動化には、マイク、画面収録、アクセシビリティの macOS 権限が必要です。
  • ドキュメントはセットアップと機能の説明が中心で、共同作業のワークフローや長期的なプロジェクト制約についての記述は少なめです。

FAQ

LocalClicky を実行するには何が必要ですか?

LocalClicky は macOS 上でローカル Whisper の文字起こしバックエンド、推論と vision に Ollama、そして macOS 標準のテキスト読み上げを使って動作するよう構成されています。README には、仮想環境内の Python バイナリに対するマイク、画面収録、アクセシビリティの追加 macOS 権限も記載されています。

音声セッションのワークフローはどのように動作しますか?

README では、LocalClicky は、ウェイクフレーズの後に録音を開始し、音声活動検出が利用できる場合は無音で自動停止し、ウェイクワードを繰り返さなくてもセッションを継続できる menubar アプリとして説明されています。

LocalClicky はどのような操作を処理できますか?

アプリの起動と終了、音量調整、Spotify の操作、ファイル管理、シェルコマンドの実行、Chrome への JavaScript 注入、リマインダーの作成、スクリーンショットと vision モデルを使った画面上 UI 要素のクリックや識別ができます。

LocalClicky は会話履歴を保持しますか?

プロジェクトの README では、アシスタントがセッション中の会話メモリとして直近 10 件のやり取りを保持すると説明されています。

LocalClicky は無料で使えますか?

このリポジトリは、README にクラウド API、API キー、サブスクリプションの記載がないローカル・オフラインのプロジェクトとして示されています。GitHub の料金ページでは GitHub 自体に無料プランと有料プランがあることが確認できますが、LocalClicky のリポジトリには別個の製品価格は記載されていません。

Quick Facts

カテゴリ
開発者向けツール
プラットフォーム
macOS
主な用途
Mac 自動化のためのオフライン音声操作
ソースドメイン
github.com
実行環境
ローカル Whisper と Ollama コンポーネントを使う Python
価格
リポジトリには個別の製品価格の記載はありません