open-typeless
open-typeless ist eine macOS-Push-to-Talk-Spracherkennungs-App: Sie streamt Transkriptionen von Volcano Engine und fügt den Text an der Cursor-Position ein.
Was ist open-typeless?
open-typeless ist eine macOS-Desktop-Anwendung, die als Showcase für das Trellis-Framework entwickelt wurde. Sie bietet einen Push-to-Talk-Workflow, der Sprache vom Mikrofon aufnimmt, Streaming-Sprache-zu-Text mit dem Volcano Engine ASR-Dienst durchführt und den erkannten Text in den aktuell fokussierten Textcursor einfügt.
Das Projekt richtet sich an Nutzer, die in beliebige Apps diktieren möchten, ohne Fenster zu wechseln. Es enthält zudem eine schwimmende Overlay-Oberfläche im Glassmorphismus-Stil, die den aktuellen Hörstatus und die Live-Transkription anzeigt, solange die Hotkey gedrückt wird.
Wichtige Funktionen
- Push-to-Talk-Hotkey (Drücken-und-Halten): Halten Sie die rechte Option-Taste, um die Aufnahme zu starten; Loslassen beendet die Aufnahme und löst die automatische Einfügung aus.
- Echtzeit-Streaming-Transkription: Nutzt Volcano Engine ASR und streamt Teilergebnisse, damit das Overlay während der Erkennung aktualisiert wird.
- Schwimmendes Overlay für Status und Transkript: Zeigt „Listening…“-Status plus transkribierten Text mit Frostglas-Optik.
- Cursor-Einfügung ohne Fensterwechsel: Fügt erkannten Text automatisch an der aktuellen Cursor-Position ein, damit Sie im genutzten App weitertippen können.
- Stiehlt keinen Fokus: Das schwimmende Fenster ist so gestaltet, dass es den Workflow nicht unterbricht, während Sie in der aktuellen App bleiben.
So verwenden Sie open-typeless
- Abhängigkeiten installieren: Führen Sie
pnpm installaus. - Umgebungsvariablen konfigurieren: Kopieren Sie
.env.examplenach.envund tragen Sie Volcano Engine-Anmeldedaten ein.VOLCENGINE_APP_IDVOLCENGINE_ACCESS_TOKENVOLCENGINE_RESOURCE_ID(Beispiele im Repo:volc.bigasr.saucfür Modell 1.0 odervolc.seedasr.saucfür Modell 2.0, als empfohlen markiert)
- App starten: Führen Sie
pnpm startaus. - macOS-Berechtigungen beim ersten Start autorisieren:
- Mikrofon-Berechtigung (für Aufnahme)
- Bedienungshilfen (Hilfsfunktion)-Berechtigung (für globale Hotkey-Behandlung und Text-Einfügung) Lassen Sie die App nach der Freigabe im Hintergrund laufen.
- Diktieren: In jeder App mit Textfeld rechte Option drücken und halten, sprechen, loslassen. Die App fügt den erkannten Text in den Cursor ein.
Anwendungsfälle
- Nachrichten in jedem Editor diktieren: Halten Sie rechte Option, um in Chat, E-Mail-Editor oder Dokumentenfeld zu diktieren; der erkannte Text erscheint am Cursor ohne manuelles Einfügen.
- Formulare mit Echtzeit-Feedback ausfüllen: Nutzen Sie das schwimmende Overlay, um zu überwachen, was das System erkennt, und lassen Sie los, um den Text zu übernehmen.
- Schnelle Notizen über Apps hinweg: Starten und stoppen Sie Sprache schnell mit Drücken-und-Halten, Fokus bleibt am aktiven Fenster.
- Hotkey-/Text-Einfügeprobleme beheben: Wenn Hotkey nicht reagiert oder Text nicht eingefügt wird, prüfen Sie, ob Bedienungshilfen-Berechtigung für die App aktiviert ist und der Cursor in einem Eingabebereich steht.
FAQ
-
Warum funktioniert die Hotkey nicht? Stellen Sie sicher, dass die App Bedienungshilfen (Hilfsfunktion)-Berechtigung in Systemeinstellungen → Datenschutz & Sicherheit → Bedienungshilfen hat und in der Liste erlaubter Apps steht.
-
Warum kann die App keinen Text einfügen? Die Zielanwendung muss Text-Eingabe unterstützen, und der Cursor muss in einem Texteingabebereich sein. Prüfen Sie auch die Bedienungshilfen-Berechtigung.
-
Gibt es einen Startverzug bei der Spracherkennung? Die erste Verbindung zum Volcano Engine-Dienst stellt eine WebSocket-Verbindung her und kann 1–2 Sekunden dauern; nachfolgende Nutzung ist oft schneller.
-
Kann ich die Hotkey ändern? Das Repository gibt an, dass die Hotkey derzeit fest auf rechte Option-Taste eingestellt ist; Anpassung erfordert Änderung in
src/main/services/keyboard/keyboard.service.ts(spezifischtriggerKey).
Alternativen
- Integrierte macOS-Diktion/Stimeneingabe: Nützlich, wenn Sie systemweite Sprache-zu-Text ohne Einrichtung externer ASR-Anbieter bevorzugen. Workflow unterscheidet sich, da Integration und Einfügung von macOS gehandhabt werden.
- Allgemeine Sprache-zu-Text-Tools mit manuellem Kopieren/Einfügen: Adapter, die Transkription bieten, erfordern meist manuelles Einfügen in die Ziel-App, im Gegensatz zum Cursor-Einfügeansatz dieses Projekts.
- Text-Erweiterungs- und Hotkey-Diktier-Apps: Tools, die Text per Shortcuts einfügen; einige fokussieren Makro-Editing oder Transkriptionspipelines statt Streaming-ASR mit Frostglas-Overlay und Push-to-Talk.
- Andere Entwickler-Sprache-zu-Text-Integrationen: Beim eigenen Workflow können Sie ASR-APIs und globale Hotkey/Clipboard- oder Bedienungshilfen-APIs nutzen; dies erfordert mehr Implementierung statt einer fertigen App.
Alternativen
Speech to Text Converter Online
Ein kostenloses Online-Tool, das Audio- und Videodateien in präzise Texttranskripte in über 45 Sprachen umwandelt. Es unterstützt zahlreiche Dateiformate und erfordert keine Downloads oder Anmeldungen.
Dictato
Dictato ist eine Offline-Diktier-App für macOS: Sprache wird lokal in Text umgewandelt und per Hotkey in jede App eingefügt. Ohne Cloud, ohne Timeout.
Memo AI
KI-gestützter Transkriptionsdienst, der Audio- und Videodateien in Text umwandelt.
Sanota
Sanota verwandelt deine Stimme in klare, schöne Texte – damit du Erinnerungen und Ideen einfach festhältst. Starte kostenlos.
OpenAI Realtime API
Erstelle Low-Latency, multimodale Voice- und Realtime-Audio-Erlebnisse mit der OpenAI Realtime API – inkl. Browser-Voice-Agents und Realtime-Transkription.
Pewbeam
Pewbeam hört beim Predigen zu, erkennt Bibelverse in Echtzeit und zeigt sie sofort auf dem Bildschirm – für Pastoren & Projektionsteams, ohne Tippen.