Type4Me
Outil d’entrée vocale macOS Type4Me : transcription en temps réel, traitement optionnel via prompts LLM, reconnaissance locale hors ligne et cloud.
Qu'est-ce que Type4Me ?
Type4Me est un outil d'entrée vocale pour macOS qui fournit une reconnaissance vocale en texte en temps réel et un traitement optionnel de texte basé sur LLM. Il prend en charge les moteurs de reconnaissance locaux (hors ligne) et cloud, et est conçu pour fonctionner avec des identifiants et un historique de reconnaissance stockés localement.
Son objectif principal est d'aider les utilisateurs à convertir la parole en chinois (et, avec les modèles locaux disponibles, bilingue chinois-anglais) en texte, avec une inférence plus rapide sur l'appareil en utilisant la reconnaissance locale, tout en permettant des flux de travail configurables basés sur des prompts lors de l'utilisation de modèles cloud.
Fonctionnalités principales
- Reconnaissance vocale locale (hors ligne) : Utilise le moteur SherpaOnnx (Paraformer/Zipformer) pour une reconnaissance sur appareil sans clés API, configuration de compte cloud ou dépendance réseau.
- Reconnaissance cloud en streaming : Se connecte au Volcengine (豆包) streaming ASR pour générer du texte pendant la parole, avec un mode performance utilisant une reconnaissance double canal puis optimisée avec l'enregistrement complet.
- Modes de traitement multiples (y compris prompts personnalisés) : Modes intégrés couvrant la frappe rapide en temps réel, flux double canal orienté performance, traduction anglaise, optimisation par prompt, et un mode commande où la parole peut instruire un LLM d'agir sur le texte sélectionné et le presse-papiers ; les utilisateurs peuvent aussi écrire leurs propres prompts.
- Variables de contexte pour prompts : Les templates de prompts supportent des variables comme {text} (parole reconnue), {selected} (texte sélectionné au début de l'enregistrement), et {clipboard} (contenu du presse-papiers au début de l'enregistrement), permettant des flux « la voix devient commande ».
- Stockage local des données : Les identifiants sont sauvegardés localement dans
~/Library/Application Support/Type4Me/credentials.json(permissions 0600), l'historique de reconnaissance dans une base SQLite locale, avec support d'export CSV par plage de dates. - Gestion du vocabulaire pour ASR : Ajoute des mots chauds (ex. noms propres) pour améliorer la précision et supporte le remplacement de phrases (ex. dire un libellé email et substituer la vraie adresse).
Comment utiliser Type4Me
- Installation sur macOS 14+ : Téléchargez le DMG de Type4Me v1.2.0 et glissez Type4Me.app dans Applications. Au premier lancement, un avertissement de sécurité macOS standard pour apps non App Store peut apparaître ; résolvez-le via Réglages Système ou terminal
xattr. - Choisir un moteur de reconnaissance :
- Installation cloud uniquement : Le flux DMG supporte les moteurs cloud.
- Reconnaissance locale hors ligne (optionnelle) : Si compilation depuis la source, activez le moteur Paraformer local et téléchargez les fichiers de modèle ASR dans
~/Library/Application Support/Type4Me/Models/.
- Configurer moteurs et clés si cloud : Suivez les instructions du repo via l'assistant au premier lancement pour entrer Volcengine App Key, Access Key et Resource ID.
- Configurer modes et raccourcis : Dans les réglages, sélectionnez moteurs local/Paraformer ou cloud, puis utilisez les modes intégrés ou prompts personnalisés. Chaque mode peut être lié à son propre raccourci global et utiliser « appui-maintenu pour parler » ou « appui unique pour démarrer/arrêter ».
Cas d'usage
- Dictée hors ligne pour environnements sans réseau fiable : Utilisez le moteur Paraformer (SherpaOnnx) local pour transcrire la parole entièrement sur appareil sans clés API.
- Frappe en temps réel avec délai minimal : Utilisez le mode Quick pour insérer la reconnaissance dès que le résultat est prêt.
- Flux bilingues : Avec un modèle local bilingue, dictez en chinois et obtenez des traductions anglaises via le mode English Translation.
- Commandes vocales agissant sur le contenu affiché : Sélectionnez du texte dans un éditeur, appuyez sur le raccourci lié, dites une commande (ex. « traduis le texte sélectionné »), et laissez le prompt recevoir le contexte
{selected}et{clipboard}. - Amélioration de précision avec vocabulaire spécifique : Ajoutez noms d'organisations, produits ou termes techniques comme mots chauds ASR, et utilisez le remplacement de phrases pour formats sensibles répétables comme les adresses email.
FAQ
-
Pourquoi macOS affiche-t-il un avertissement au premier lancement ? macOS affiche un avertissement de sécurité lors de l’ouverture d’apps non issues de l’App Store. Le dépôt propose deux méthodes pour autoriser l’ouverture (Réglages Système recommandé, ou terminal
xattr -d com.apple.quarantine). -
Ai-je besoin d’une clé API pour la reconnaissance locale ? Non. Avec le moteur local basé sur SherpaOnnx, la reconnaissance s’exécute sur l’appareil sans nécessiter de clés API ou de comptes cloud.
-
Où sont stockées mes identifiants et l’historique de reconnaissance ? Les identifiants sont sauvegardés localement dans
~/Library/Application Support/Type4Me/credentials.jsonavec permission 0600. L’historique de reconnaissance est stocké dans une base de données SQLite locale et peut être exporté en CSV par plage de dates. -
Puis-je personnaliser le traitement du texte reconnu ? Oui. Type4Me inclut des modes intégrés et prend en charge des modèles de prompts personnalisés. Les variables de prompt incluent
{text},{selected}et{clipboard}. -
La reconnaissance locale est-elle disponible dans le DMG précompilé ? Le dépôt indique que le flux de téléchargement DMG prend en charge les moteurs de reconnaissance cloud. La reconnaissance locale hors ligne nécessite une compilation à partir des sources et le téléchargement des fichiers de modèles SherpaOnnx pertinents.
Alternatives
- Dictée intégrée macOS : Option native pratique pour la saisie vocale, généralement limitée pour intégrer un traitement LLM par prompts et sélectionner un moteur hors ligne.
- Outils locaux/hors ligne de saisie vocale (apps ASR ou CLI) : Ils fonctionnent sans réseau comme le mode local de Type4Me, mais n’offrent pas les mêmes modes pilotés par prompts et flux de travail avec raccourcis/presse-papiers.
- Plateformes de transcription cloud avec API : Utiles pour une précision gérée par un modèle cloud, mais nécessitent une connexion réseau et une gestion de compte/clé API, contrairement à l’approche locale prioritaire de Type4Me.
- Produits de saisie vocale navigateur/bureau : Ils se concentrent sur la dictée directe dans les apps ; le flux distinctif de Type4Me combine reconnaissance, modes de prompts configurables et stockage/export local de l’historique de reconnaissance.
Alternatives
Tactiq
Tactiq est un assistant de réunion AI qui fournit une transcription en direct, des résumés AI, des éléments d'action et des invites AI personnalisées pour Google Meet, Zoom et Teams.
Tavus
Tavus crée des systèmes IA capables de voir, entendre et répondre en temps réel aux interactions face à face, via des APIs.
AakarDev AI
AakarDev AI est une plateforme puissante qui simplifie le développement d'applications d'IA avec une intégration fluide des bases de données vectorielles, permettant un déploiement rapide et une évolutivité.
Sanota
Sanota transforme votre voix en texte clair et beau pour capturer facilement vos souvenirs et idées, puis commencer gratuitement.
BookAI.chat
BookAI vous permet de discuter avec vos livres en utilisant l'IA en fournissant simplement le titre et l'auteur.
skills-janitor
skills-janitor audite, suit l’usage et compare vos compétences Claude Code avec neuf actions d’analyse par commandes slash, sans dépendances.