UStackUStack
Type4Me icon

Type4Me

Strumento di input vocale per macOS con trascrizione in tempo reale e gestione testi opzionale con prompt LLM, offline e cloud con credenziali locali.

Type4Me

Cos'è Type4Me?

Type4Me è uno strumento di input vocale per macOS che offre riconoscimento vocale in tempo reale e gestione testi opzionale con LLM. Supporta motori di riconoscimento locali (offline) e cloud, con credenziali e cronologia salvate localmente.

Il suo scopo principale è aiutare gli utenti a convertire il parlato cinese (e, con i modelli locali disponibili, cinese-inglese bilingue) in testo, con inferenza più rapida on-device usando il riconoscimento locale, e flussi di lavoro configurabili basati su prompt con modelli cloud.

Caratteristiche Principali

  • Riconoscimento vocale locale (offline): Utilizza il motore SherpaOnnx (Paraformer/Zipformer) per riconoscimento on-device senza chiavi API, configurazione account cloud o dipendenza dalla rete.
  • Riconoscimento streaming cloud: Si connette al Volcengine (豆包) streaming ASR per generare testo durante la parola, con modalità performance che usa riconoscimento double-channel e ottimizza con la registrazione completa.
  • Modalità di elaborazione multiple (inclusi prompt personalizzati): Modalità integrate per digitazione rapida in tempo reale, flusso double-channel orientato alle performance, traduzione inglese, ottimizzazione prompt e modalità comandi dove la voce istruisce un LLM ad agire su testo selezionato e contenuto clipboard; gli utenti possono anche creare prompt propri.
  • Variabili di contesto nei prompt: I template prompt supportano variabili come {text} (parlato riconosciuto), {selected} (testo selezionato all'avvio registrazione) e {clipboard} (contenuto clipboard all'avvio), per flussi “voce diventa comando”.
  • Archiviazione dati locale: Le credenziali sono salvate localmente in ~/Library/Application Support/Type4Me/credentials.json (permessi 0600), la cronologia riconoscimento in un database SQLite locale, con supporto esportazione storia in CSV per intervalli di date.
  • Gestione vocabolario per ASR: Aggiunge hot words (es. nomi propri) per migliorare l'accuratezza e supporta sostituzione frasi (es. dire etichetta email e sostituire con indirizzo reale).

Come Usare Type4Me

  1. Installa su macOS 14+: Scarica il DMG di Type4Me v1.2.0 e trascina Type4Me.app in Applicazioni. Al primo avvio può apparire un avviso di sicurezza macOS standard per app non App Store; risolvibile tramite Impostazioni di Sistema o terminale xattr.
  2. Scegli un motore di riconoscimento:
    • Installazione solo cloud: Il flusso DMG supporta motori cloud.
    • Riconoscimento locale offline (opzionale): Se compilato da sorgente, abilita il motore Paraformer locale e scarica file modelli ASR in ~/Library/Application Support/Type4Me/Models/.
  3. Configura motori e chiavi se usi cloud: Segui le istruzioni del repo nel wizard di primo avvio per inserire Volcengine App Key, Access Key e Resource ID.
  4. Configura modalità e scorciatoie: Nelle impostazioni, seleziona motori locali/Paraformer o cloud, poi usa modalità integrate o prompt personalizzati. Ogni modalità può essere associata a una scorciatoia globale e usa “premi e tieni per parlare” o “premi una volta per avvio/arresto”.

Casi d'Uso

  • Dettatura offline per ambienti senza rete affidabile: Usa il motore Paraformer locale (SherpaOnnx) per trascrivere la voce completamente on-device senza chiavi API.
  • Digitazione in tempo reale con ritardo minimo: Usa la modalità Quick per inserire il riconoscimento non appena pronto.
  • Flussi bilingui: Con un modello locale bilingue, detta in cinese e ottieni traduzioni inglesi con la modalità English Translation.
  • Comandi vocali su contenuto visualizzato: Seleziona testo in un editor, premi la scorciatoia, di un comando (es. “traduci il testo selezionato”) e lascia che il prompt riceva contesto {selected} e {clipboard}.
  • Migliorare accuratezza con vocabolario specifico: Aggiungi nomi organizzazioni, prodotti o termini tecnici come hot words ASR, e usa sostituzione frasi per formati sensibili ripetibili come indirizzi email.

FAQ

  • Perché macOS avvisa al primo avvio? macOS mostra un avviso di sicurezza quando si aprono app non provenienti dall'App Store. Il repository fornisce due metodi per consentire l'apertura (impostazioni di sistema consigliate, o terminale xattr -d com.apple.quarantine).

  • Serve una chiave API per il riconoscimento locale? No. Con il motore locale basato su SherpaOnnx, il riconoscimento avviene sul dispositivo senza bisogno di chiavi API o account cloud.

  • Dove sono salvate le mie credenziali e la cronologia di riconoscimento? Le credenziali sono salvate localmente in ~/Library/Application Support/Type4Me/credentials.json con permessi 0600. La cronologia di riconoscimento è memorizzata in un database SQLite locale e può essere esportata in CSV per intervalli di date.

  • Posso personalizzare l'elaborazione del testo riconosciuto? Sì. Type4Me include modalità predefinite e supporta template di prompt personalizzati. Le variabili di prompt includono {text}, {selected} e {clipboard}.

  • Il riconoscimento locale è disponibile nel DMG precompilato? Il repository nota che il flusso di download DMG supporta i motori di riconoscimento cloud. Il riconoscimento offline locale richiede la compilazione da sorgente e il download dei file modello SherpaOnnx rilevanti.

Alternative

  • Dettatura integrata di macOS: Un'opzione nativa comoda per speech-to-text, tipicamente limitata nell'integrazione con elaborazione LLM basata su prompt e selezione di motori offline.
  • Strumenti speech-to-text locali/offline (app ASR o CLI): Possono funzionare senza rete come la modalità locale di Type4Me, ma potrebbero non offrire le stesse modalità guidate da prompt e workflow con contesti shortcut/clipboard.
  • Piattaforme di trascrizione cloud con API: Utili per accuratezza gestita da modelli cloud, ma richiedono accesso di rete e generalmente gestione di account/chiavi API, a differenza della capacità local-first di Type4Me.
  • Prodotti di dettatura vocale per browser/desktop: Focalizzati sulla dettatura diretta nelle app; il workflow distintivo di Type4Me combina riconoscimento con modalità prompt configurabili e storage/esportazione locale della cronologia di riconoscimento.
Type4Me | UStack