UStackUStack
Type4Me icon

Type4Me

MacOS Speech-Input mit Echtzeit-Transkription und optionaler LLM-Textverarbeitung. Unterstützt Offline- und Cloud-Erkennung mit lokal gespeicherten Daten.

Type4Me

Was ist Type4Me?

Type4Me ist ein macOS-Sprach-Eingabetool, das Echtzeit-Sprache-zu-Text-Erkennung und optionale LLM-basierte Textverarbeitung bietet. Es unterstützt lokale (Offline-) und Cloud-Erkennungs-Engines und ist so konzipiert, dass Anmeldedaten und Erkennungshistorie lokal gespeichert werden.

Sein Kernzweck ist es, Nutzern beim Umwandeln gesprochener Chinesisch (und, mit verfügbaren lokalen Modellen, bilingualem Chinesisch-Englisch) in Text zu helfen – mit schnellerer On-Device-Inferenz bei lokaler Erkennung und konfigurierbaren Prompt-basierten Workflows bei Cloud-Modellen.

Wichtige Funktionen

  • Lokale Spracherkennung (offline): Nutzt den SherpaOnnx-Engine (Paraformer/Zipformer) für On-Device-Erkennung ohne API-Keys, Cloud-Account-Setup oder Netzwerkabhängigkeit.
  • Cloud-Streaming-Erkennung: Verbinde dich mit dem Volcengine (豆包) Streaming-ASR, um Text während des Sprechens zu generieren, mit einem Performance-Modus, der Doppelkanal-Erkennung nutzt und dann mit der vollständigen Aufnahme optimiert.
  • Mehrere Verarbeitungsmodi (inkl. Custom Prompts): Integrierte Modi umfassen schnelles Echtzeit-Tippen, performanceorientierten Doppelkanal-Flow, Englisch-Übersetzung, Prompt-Optimierung und einen Command-Modus, in dem Sprache ein LLM anweist, auf ausgewählten Text und Clipboard-Inhalt zu reagieren; Nutzer können eigene Prompts schreiben.
  • Prompt-Kontextvariablen: Prompt-Vorlagen unterstützen Variablen wie {text} (erkannte Sprache), {selected} (aktuell ausgewählter Text beim Aufnahme-Start) und {clipboard} (Clipboard-Inhalt beim Aufnahme-Start), für „Sprache wird Befehl“-Workflows.
  • Lokale Datenspeicherung: Anmeldedaten werden lokal unter ~/Library/Application Support/Type4Me/credentials.json (Berechtigung 0600) gespeichert, Erkennungshistorie in einer lokalen SQLite-Datenbank, mit Export als CSV nach Datumsbereich.
  • Vokabelverwaltung für ASR: Fügt Hotwords (z. B. Eigennamen) hinzu, um die Erkennungsgenauigkeit zu verbessern, und unterstützt Phrasenersetzung (z. B. E-Mail-Label durch echte Adresse ersetzen).

So nutzt du Type4Me

  1. Installation auf macOS 14+: Lade das DMG für Type4Me v1.2.0 herunter und ziehe Type4Me.app in Programme. Beim ersten Start kann eine Standard-macOS-Sicherheitswarnung für Non-App-Store-Apps erscheinen; löse sie über Systemeinstellungen oder Terminal xattr.
  2. Wähle einen Erkennungs-Engine:
    • Nur Cloud-Installation: Das DMG unterstützt Cloud-Erkennungs-Engines.
    • Lokale Offline-Erkennung (optional): Beim Build from Source kannst du den lokalen Paraformer-Engine aktivieren und ASR-Modelldateien in ~/Library/Application Support/Type4Me/Models/ herunterladen.
  3. Konfiguriere Engines und Keys bei Cloud-Nutzung: Folge der Repo-Setup-Anleitung im First-Run-Wizard, um Volcengine App Key, Access Key und Resource ID einzugeben.
  4. Konfiguriere Modi und Shortcuts: In den Einstellungen wähle lokale/Paraformer- oder Cloud-Engines, dann integrierte Modi oder Custom Prompts. Jeder Modus kann an einen eigenen globalen Shortcut gebunden werden und „Druck-und-Halte-zum-Sprechen“ oder „Einmal-Druck-zum-Start/Stop“ nutzen.

Anwendungsfälle

  • Offline-Diktat in netzarmen Umgebungen: Nutze den lokalen Paraformer (SherpaOnnx)-Engine für vollständig On-Device-Transkription ohne API-Keys.
  • Echtzeit-Tippen mit minimaler Verzögerung: Verwende den Quick-Modus, um Erkennungsergebnisse sofort einzufügen.
  • Bilinguale Output-Workflows: Mit bilingualem lokalem Modell diktiere Chinesisch und erzeuge Englisch-Übersetzungen im English Translation-Modus.
  • Sprachbefehle für sichtbaren Inhalt: Wähle Text in einem Editor, drücke den Shortcut, sage einen Befehl (z. B. „übersetze den ausgewählten Text“), und lass den Prompt {selected} und {clipboard}-Kontext erhalten.
  • Genauigkeit verbessern mit domänenspezifischem Vokabular: Füge Firmennamen, Produktnamen oder Fachbegriffe als ASR-Hotwords hinzu und nutze Phrasenersetzung für wiederholbare sensible Formate wie E-Mail-Adressen.

FAQ

  • Warum warnt macOS beim ersten Start? macOS zeigt eine Sicherheitswarnung bei Apps an, die nicht aus dem App Store stammen. Das Repo bietet zwei Methoden zum Freigeben (Systemeinstellungen empfohlen oder Terminal xattr -d com.apple.quarantine).

  • Brauche ich einen API-Schlüssel für lokale Erkennung? Nein. Bei Verwendung des lokalen SherpaOnnx-basierten Engines läuft die Erkennung auf dem Gerät und benötigt keine API-Schlüssel oder Cloud-Konten.

  • Wo werden meine Anmeldedaten und Erkennungshistorie gespeichert? Anmeldedaten werden lokal in ~/Library/Application Support/Type4Me/credentials.json mit Berechtigung 0600 gespeichert. Die Erkennungshistorie wird in einer lokalen SQLite-Datenbank abgelegt und kann nach Datumsbereich als CSV exportiert werden.

  • Kann ich die Verarbeitung des erkannten Texts anpassen? Ja. Type4Me umfasst eingebaute Modi und unterstützt benutzerdefinierte Prompt-Vorlagen. Prompt-Variablen sind {text}, {selected} und {clipboard}.

  • Ist lokale Erkennung in der vorgefertigten DMG verfügbar? Das Repo weist darauf hin, dass der DMG-Download Cloud-Erkennungs-Engines unterstützt. Lokale Offline-Erkennung erfordert den Build aus dem Quellcode und das Herunterladen der relevanten SherpaOnnx-Modelldateien.

Alternativen

  • macOS-eigene Diktierfunktion: Praktive native Option für Speech-to-Text, meist begrenzt bei Integration von prompt-basierter LLM-Verarbeitung und Offline-Engine-Auswahl.
  • Lokale/Offline-Speech-to-Text-Tools (ASR-Apps oder CLIs): Können netzunabhängig laufen wie Type4Me’s lokaler Modus, bieten aber möglicherweise nicht dieselben prompt-gesteuerten Modi und Shortcut/Clipboard-Kontext-Workflows.
  • Cloud-basierte Transkriptionsplattformen mit APIs: Nützlich für verwaltete Genauigkeit durch Cloud-Modelle, erfordern aber Netzwerkzugriff und in der Regel Konto-/API-Schlüssel-Verwaltung – im Gegensatz zu Type4Me’s lokal-first-Fähigkeit.
  • Browser/Desktop-Sprach-Tipp-Produkte: Fokussieren auf direkte Diktion in Apps; Type4Me’s besonderer Workflow kombiniert Erkennung mit konfigurierbaren Prompt-Modi sowie lokaler Speicherung/Export der Erkennungshistorie.