LocalClicky
LocalClicky ist ein lokaler macOS-Sprachassistent für freihändige Steuerung, der Sprache offline transkribiert, Befehle versteht und den Mac bedient.
Was ist LocalClicky?
LocalClicky ist ein macOS-Sprachsteuerungsassistent, der vollständig auf dem Rechner des Nutzers läuft. Er hört auf ein Aktivierungswort, transkribiert Sprache lokal, nutzt ein lokales Modell für Reasoning und Vision und kann Teile der Mac-Oberfläche steuern, ohne Audio, Screenshots oder Befehle an externe Cloud-Dienste zu senden.
Das Projekt kombiniert mehrere lokale Komponenten: Whisper.cpp für die Transkription, Ollama für die Modellinferenz, die macOS-Sprachsynthese für Antworten sowie PyAutoGUI für Cursor- und Klickaktionen. Es ist für freihändige Befehlsausführung, bildschirmbewusste Interaktionen und kurze Sprachsitzungen ausgelegt, die weiterlaufen, bis der Nutzer sie beendet.
Hauptfunktionen
- Betrieb nur im Menüleistenbereich: läuft über die macOS-Menüleiste ohne Dock-Symbol und bleibt so während der Nutzung unaufdringlich.
- Wake-Word-Sitzungsablauf: Das Wort „Computer“ startet eine Sitzung, und der Assistent bleibt für Folgekommandos aktiv, bis der Nutzer eine Stoppphrase sagt oder ein Timeout bei Stille die Sitzung beendet.
- Lokale Sprachtranskription und Reasoning: Whisper.cpp übernimmt die Transkription lokal, während Ollama für die Befehlsinterpretation und visuelle Antworten verwendet wird.
- Bildschirmbewusste Aktionen: Bei Bedarf kann es einen Screenshot aufnehmen, den Bildschirminhalt beschreiben und diese Ansicht nutzen, um UI-Elemente zu finden und anzuklicken.
- Mac-Steuerung und Automatisierung: Es kann Apps öffnen oder beenden, die Lautstärke anpassen, Spotify steuern, Dateien verwalten, Shell-Befehle ausführen, JavaScript in Chrome einfügen und Erinnerungen erstellen.
- Gesprächsspeicher während einer Sitzung: Es behält die letzten 10 Interaktionen, um Folgekommandos und mehrstufige Abläufe zu unterstützen.
- Unterstützung für Voice Activity Detection: Optional kann VAD die Aufnahme automatisch beenden, wenn der Nutzer aufhört zu sprechen, statt nur auf ein festes Timeout zu setzen.
So verwenden Sie LocalClicky
Installieren Sie die erforderlichen lokalen Komponenten, darunter Whisper.cpp, Ollama, Python-Abhängigkeiten und optional Voice Activity Detection. Gewähren Sie die angeforderten macOS-Berechtigungen für Mikrofonzugriff, Bildschirmaufnahme und Bedienungshilfen für das Python-Binary in der virtuellen Umgebung des Projekts.
Starten Sie die App mit python main.py, nachdem Sie Ollama gestartet haben. Sobald sie in der Menüleiste erscheint, sagen Sie „Computer“, um eine Sitzung zu beginnen, sprechen Sie einen Befehl und lassen Sie die Antwort ausgeben. Verwenden Sie eine Stoppphrase wie „bye“ oder „go to sleep“, um die Sitzung zu beenden und zum Wake-Word-Modus zurückzukehren.
Anwendungsfälle
- Sprachgesteuerte App-Steuerung: Spotify öffnen, Musik abspielen, Titel überspringen oder die app-spezifische Lautstärke ändern, ohne Tastatur oder Maus zu benutzen.
- Bildschirmbasierte Zeigeraktionen: Bitten Sie es, auf ein sichtbares UI-Element wie eine Benachrichtigungsglocke oder ein anderes aus einem Screenshot erkennbares Steuerelement zu klicken.
- Freihändige Mac-Administration: Systemlautstärke einstellen, neue Chrome-Tabs öffnen, Apps beenden oder Shell-Befehle per Sprache ausführen.
- Erinnerungen erstellen: Natürlichsprachliche Anfragen wie „morgen um 9 Uhr“ in Erinnerungen in macOS Erinnerungen umwandeln.
- Kurze verkettete Aufgaben: Eine Sitzung offen halten, um mehrere zusammenhängende Befehle nacheinander auszuführen, ohne das Aktivierungswort jedes Mal zu wiederholen.
FAQ
Verwendet LocalClicky Cloud-APIs? Nein. Die Repository-Beschreibung sagt, dass alles vollständig offline läuft und Sprache, Bildschirm und Befehle auf dem Rechner des Nutzers bleiben.
Welche Berechtigungen braucht es unter macOS? Es benötigt Mikrofonzugriff, Berechtigung für Bildschirmaufnahme und Bedienungshilfen für Mausbewegungen und Klicks.
Kann es ohne Voice Activity Detection funktionieren? Ja, aber die Quelle weist darauf hin, dass die Aufnahme dann auf ein festes Limit von 30 Sekunden zurückfällt, statt automatisch zu stoppen, wenn Sie aufhören zu sprechen.
Wie endet eine Sitzung? Sie können eine Stoppphrase wie „bye“, „goodbye“, „stop listening“, „go to sleep“ oder „that's all“ sagen oder die Sitzung nach 25 Sekunden Stille ablaufen lassen.
Alternativen
- Siri unter macOS: ein eingebauter Sprachassistent für allgemeine Systemaufgaben, der hier jedoch nicht als ebenso vollständig lokal beschrieben wird wie LocalClicky.
- Cloud-basierte Sprachassistenten: Assistenten, die Audio- oder Bildschirmdaten zur Transkription und zum Reasoning an entfernte Dienste senden, anders als der lokal orientierte Workflow von LocalClicky.
- Automatisierungstools für Tastatur und Maus: Hilfsprogramme wie Skript- oder Makro-Tools, die Apps und den Desktop steuern können, aber typischerweise kein Wake-Word-Sprachinput, lokale Transkription und bildschirmbewusstes Reasoning in einem Ablauf kombinieren.
- Andere lokale LLM-Automatisierungs-Setups: benutzerdefinierte Kombinationen aus lokaler Speech-to-Text-Erkennung, lokalen Modellen und Automatisierungsskripten, die ähnliches Verhalten nachbilden können, meist mit mehr manueller Integrationsarbeit.
Alternativen
Carbon Voice
Carbon Voice ist eine asynchrone Voice-Messaging-App für Teams, die Menschen und KI-Agenten an einem Ort vereint. Nachrichten auf Desktop, Mobilgerät und Watch.
Gemma AI
Gemma AI ist eine intelligente Anwendung, die Sie direkt mit personalisierten, intelligenten Spracherinnerungen anruft, um sicherzustellen, dass Sie wichtige Aufgaben, Termine oder Fristen nicht verpassen.
Spotit
Spotit ist eine macOS-App, die Ihren Bildschirm liest und per Sprachfragen genau zeigt, wo Sie klicken sollen – mit On-Screen-Anleitung.
Sanota
Sanota verwandelt deine Stimme in klare, schöne Texte – damit du Erinnerungen und Ideen einfach festhältst. Starte kostenlos.
MealTime
MealTime ist Ihr persönlicher, offline-fähiger Rezeptbegleiter, der Ihnen hilft, Mahlzeiten zu speichern, zu organisieren, zu planen und intelligente Einkaufslisten zu erstellen, während Ihre Daten privat bleiben.
Lemon
Lemon: KI-Agent für Sprachbefehle. Verwandelt Sprache in Aufgaben für Nachrichten, Recherche & delegierte Arbeit, ohne App-Wechsel.