open-typeless
open-typeless est une app de reconnaissance vocale sur macOS en push-to-talk : transcription en streaming Volcano Engine, puis insertion au curseur.
Qu’est-ce qu’open-typeless ?
open-typeless est une application de bureau macOS conçue comme vitrine pour le framework Trellis. Elle propose un flux push-to-talk qui enregistre la parole via votre micro, effectue une transcription vocale en streaming avec le service ASR de Volcano Engine, et insère le texte reconnu au curseur actif.
Le projet s’adresse aux utilisateurs souhaitant dicter dans n’importe quelle app sans changer de fenêtre. Il inclut aussi une superposition flottante au style glassmorphism indiquant l’état d’écoute et la transcription en direct pendant que vous maintenez la touche de raccourci.
Fonctionnalités principales
- Raccourci push-to-talk (appui-maintenu) : Maintenez la touche Option droite pour démarrer l’enregistrement ; relâchez pour arrêter et insérer automatiquement.
- Transcription en streaming temps réel : Utilise Volcano Engine ASR et diffuse les résultats partiels pour que la superposition se mette à jour au fur et à mesure.
- Superposition flottante pour statut et transcription : Affiche un état « Écoute… » plus le texte transcrit avec un aspect verre dépoli.
- Insertion au curseur sans changement de fenêtre : Insère automatiquement le texte reconnu à la position du curseur pour continuer à taper dans l’app en cours.
- Ne vole pas le focus : La fenêtre flottante est conçue pour ne pas perturber le flux de travail tout en restant dans l’app active.
Comment utiliser open-typeless
- Installer les dépendances : exécutez
pnpm install. - Configurer les variables d’environnement : copiez
.env.examplevers.envet remplissez les identifiants Volcano Engine.VOLCENGINE_APP_IDVOLCENGINE_ACCESS_TOKENVOLCENGINE_RESOURCE_ID(exemples dans le repo :volc.bigasr.saucpour le modèle 1.0, ouvolc.seedasr.saucpour le modèle 2.0, recommandé)
- Démarrer l’app : exécutez
pnpm start. - Autoriser les permissions macOS au premier lancement :
- Permission microphone (pour l’enregistrement)
- Permission Accessibilité (Fonction auxiliaire) (pour la gestion du raccourci global et l’insertion de texte) Une fois les permissions accordées, laissez l’app tourner en arrière-plan.
- Dicter : Dans n’importe quel champ de texte, appuyez et maintenez Option droite, parlez, puis relâchez. L’app insère le texte reconnu au curseur.
Cas d’usage
- Dictée de messages dans n’importe quel éditeur : Maintenez Option droite pour dicter dans un chat, un éditeur d’email ou un champ de document ; le texte reconnu apparaît au curseur sans collage manuel.
- Remplissage de formulaires avec retour temps réel : Utilisez la superposition flottante pour surveiller ce que le système reconnaît pendant que vous parlez, puis relâchez pour valider le texte.
- Prise de notes rapides entre apps : Démarrez et arrêtez la parole vite avec une touche appui-maintenu, en gardant le focus sur la fenêtre active.
- Dépannage des problèmes de raccourci/insertion : Si le raccourci ne répond pas ou que le texte ne s’insère pas, vérifiez que la permission Accessibilité est activée pour l’app et que le curseur est dans un champ de saisie.
FAQ
-
Pourquoi le raccourci ne fonctionne-t-il pas ? Vérifiez que l’app a la permission Accessibilité (Fonction auxiliaire) dans Réglages Système → Confidentialité et sécurité → Accessibilité, et qu’elle figure dans la liste des apps autorisées.
-
Pourquoi l’app ne peut-elle pas insérer de texte ? L’app cible doit supporter la saisie de texte, et le curseur doit être dans un champ de saisie. Vérifiez aussi que la permission Accessibilité est bien autorisée.
-
Y a-t-il un délai au démarrage pour la reconnaissance vocale ? La première connexion au service Volcano Engine établit une connexion WebSocket et peut prendre 1–2 secondes ; les usages suivants sont souvent plus rapides.
-
Puis-je changer le raccourci ? Le dépôt indique que le raccourci est fixé sur la touche Option droite ; une personnalisation nécessite de modifier
src/main/services/keyboard/keyboard.service.ts(notammenttriggerKey).
Alternatives
- Dictée/entrée vocale intégrée à macOS : Utile si vous préférez la reconnaissance vocale système sans configurer de credentials pour un fournisseur ASR externe. Le flux diffère car l’intégration et l’insertion sont gérées par macOS.
- Outils de reconnaissance vocale générale avec copie/collage manuel : Adaptateurs fournissant une transcription mais nécessitant souvent un collage dans l’app cible, contrairement à l’insertion au curseur de ce projet.
- Apps d’expansion de texte et dictée par raccourci : Outils aidant à insérer du texte via des raccourcis ; certains se concentrent sur les macros d’édition ou pipelines de transcription plutôt que sur l’ASR en streaming avec superposition verre dépoli et push-to-talk.
- Autres intégrations de reconnaissance vocale pour développeurs : Si vous construisez votre propre flux, utilisez des API ASR et raccourcis globaux/presse-papiers ou API d’accessibilité ; cela diffère en nécessitant plus d’implémentation plutôt qu’une app prête à l’emploi.
Alternatives
Speech to Text Converter Online
Un outil en ligne gratuit qui convertit les fichiers audio et vidéo en transcriptions textuelles précises dans plus de 45 langues. Il prend en charge de nombreux formats de fichiers et ne nécessite aucun téléchargement ni inscription.
Dictato
Dictato est une app de dictée hors ligne pour macOS : transcription vocale sur l’appareil et insertion en temps réel dans n’importe quelle appli, sans cloud.
Memo AI
Service de transcription alimenté par l'IA qui convertit des fichiers audio et vidéo en texte.
Sanota
Sanota transforme votre voix en texte clair et beau pour capturer facilement vos souvenirs et idées, puis commencer gratuitement.
OpenAI Realtime API
Créez des expériences vocales temps réel et multimodales à faible latence avec l’OpenAI Realtime API : agents voix navigateur et transcription temps réel.
Pewbeam
Pewbeam écoute votre sermon, détecte les versets bibliques en temps réel et les affiche instantanément à l’écran pour la projection.