open-typeless

Was ist open-typeless?

open-typeless ist eine macOS-Desktop-Anwendung, die als Showcase für das Trellis-Framework entwickelt wurde. Sie bietet einen Push-to-Talk-Workflow, der Sprache vom Mikrofon aufnimmt, Streaming-Sprache-zu-Text mit dem Volcano Engine ASR-Dienst durchführt und den erkannten Text in den aktuell fokussierten Textcursor einfügt.

Das Projekt richtet sich an Nutzer, die in beliebige Apps diktieren möchten, ohne Fenster zu wechseln. Es enthält zudem eine schwimmende Overlay-Oberfläche im Glassmorphismus-Stil, die den aktuellen Hörstatus und die Live-Transkription anzeigt, solange die Hotkey gedrückt wird.

Wichtige Funktionen

Push-to-Talk-Hotkey (Drücken-und-Halten): Halten Sie die rechte Option-Taste, um die Aufnahme zu starten; Loslassen beendet die Aufnahme und löst die automatische Einfügung aus.
Echtzeit-Streaming-Transkription: Nutzt Volcano Engine ASR und streamt Teilergebnisse, damit das Overlay während der Erkennung aktualisiert wird.
Schwimmendes Overlay für Status und Transkript: Zeigt „Listening…“-Status plus transkribierten Text mit Frostglas-Optik.
Cursor-Einfügung ohne Fensterwechsel: Fügt erkannten Text automatisch an der aktuellen Cursor-Position ein, damit Sie im genutzten App weitertippen können.
Stiehlt keinen Fokus: Das schwimmende Fenster ist so gestaltet, dass es den Workflow nicht unterbricht, während Sie in der aktuellen App bleiben.

So verwenden Sie open-typeless

Abhängigkeiten installieren: Führen Sie pnpm install aus.
Umgebungsvariablen konfigurieren: Kopieren Sie .env.example nach .env und tragen Sie Volcano Engine-Anmeldedaten ein.
- VOLCENGINE_APP_ID
- VOLCENGINE_ACCESS_TOKEN
- VOLCENGINE_RESOURCE_ID (Beispiele im Repo: volc.bigasr.sauc für Modell 1.0 oder volc.seedasr.sauc für Modell 2.0, als empfohlen markiert)
App starten: Führen Sie pnpm start aus.
macOS-Berechtigungen beim ersten Start autorisieren:
- Mikrofon-Berechtigung (für Aufnahme)
- Bedienungshilfen (Hilfsfunktion)-Berechtigung (für globale Hotkey-Behandlung und Text-Einfügung) Lassen Sie die App nach der Freigabe im Hintergrund laufen.
Diktieren: In jeder App mit Textfeld rechte Option drücken und halten, sprechen, loslassen. Die App fügt den erkannten Text in den Cursor ein.

Anwendungsfälle

Nachrichten in jedem Editor diktieren: Halten Sie rechte Option, um in Chat, E-Mail-Editor oder Dokumentenfeld zu diktieren; der erkannte Text erscheint am Cursor ohne manuelles Einfügen.
Formulare mit Echtzeit-Feedback ausfüllen: Nutzen Sie das schwimmende Overlay, um zu überwachen, was das System erkennt, und lassen Sie los, um den Text zu übernehmen.
Schnelle Notizen über Apps hinweg: Starten und stoppen Sie Sprache schnell mit Drücken-und-Halten, Fokus bleibt am aktiven Fenster.
Hotkey-/Text-Einfügeprobleme beheben: Wenn Hotkey nicht reagiert oder Text nicht eingefügt wird, prüfen Sie, ob Bedienungshilfen-Berechtigung für die App aktiviert ist und der Cursor in einem Eingabebereich steht.

FAQ

Warum funktioniert die Hotkey nicht? Stellen Sie sicher, dass die App Bedienungshilfen (Hilfsfunktion)-Berechtigung in Systemeinstellungen → Datenschutz & Sicherheit → Bedienungshilfen hat und in der Liste erlaubter Apps steht.
Warum kann die App keinen Text einfügen? Die Zielanwendung muss Text-Eingabe unterstützen, und der Cursor muss in einem Texteingabebereich sein. Prüfen Sie auch die Bedienungshilfen-Berechtigung.
Gibt es einen Startverzug bei der Spracherkennung? Die erste Verbindung zum Volcano Engine-Dienst stellt eine WebSocket-Verbindung her und kann 1–2 Sekunden dauern; nachfolgende Nutzung ist oft schneller.
Kann ich die Hotkey ändern? Das Repository gibt an, dass die Hotkey derzeit fest auf rechte Option-Taste eingestellt ist; Anpassung erfordert Änderung in src/main/services/keyboard/keyboard.service.ts (spezifisch triggerKey).

Alternativen

Integrierte macOS-Diktion/Stimeneingabe: Nützlich, wenn Sie systemweite Sprache-zu-Text ohne Einrichtung externer ASR-Anbieter bevorzugen. Workflow unterscheidet sich, da Integration und Einfügung von macOS gehandhabt werden.
Allgemeine Sprache-zu-Text-Tools mit manuellem Kopieren/Einfügen: Adapter, die Transkription bieten, erfordern meist manuelles Einfügen in die Ziel-App, im Gegensatz zum Cursor-Einfügeansatz dieses Projekts.
Text-Erweiterungs- und Hotkey-Diktier-Apps: Tools, die Text per Shortcuts einfügen; einige fokussieren Makro-Editing oder Transkriptionspipelines statt Streaming-ASR mit Frostglas-Overlay und Push-to-Talk.
Andere Entwickler-Sprache-zu-Text-Integrationen: Beim eigenen Workflow können Sie ASR-APIs und globale Hotkey/Clipboard- oder Bedienungshilfen-APIs nutzen; dies erfordert mehr Implementierung statt einer fertigen App.

open-typeless

Was ist open-typeless?

Wichtige Funktionen

So verwenden Sie open-typeless

Anwendungsfälle

FAQ

Alternativen

Alternativen

Speech to Text Converter Online

Dictato

Memo AI

Sanota

OpenAI Realtime API

Pewbeam