UStackUStack
open-typeless icon

open-typeless

open-typeless est une app de reconnaissance vocale sur macOS en push-to-talk : transcription en streaming Volcano Engine, puis insertion au curseur.

open-typeless

Qu’est-ce qu’open-typeless ?

open-typeless est une application de bureau macOS conçue comme vitrine pour le framework Trellis. Elle propose un flux push-to-talk qui enregistre la parole via votre micro, effectue une transcription vocale en streaming avec le service ASR de Volcano Engine, et insère le texte reconnu au curseur actif.

Le projet s’adresse aux utilisateurs souhaitant dicter dans n’importe quelle app sans changer de fenêtre. Il inclut aussi une superposition flottante au style glassmorphism indiquant l’état d’écoute et la transcription en direct pendant que vous maintenez la touche de raccourci.

Fonctionnalités principales

  • Raccourci push-to-talk (appui-maintenu) : Maintenez la touche Option droite pour démarrer l’enregistrement ; relâchez pour arrêter et insérer automatiquement.
  • Transcription en streaming temps réel : Utilise Volcano Engine ASR et diffuse les résultats partiels pour que la superposition se mette à jour au fur et à mesure.
  • Superposition flottante pour statut et transcription : Affiche un état « Écoute… » plus le texte transcrit avec un aspect verre dépoli.
  • Insertion au curseur sans changement de fenêtre : Insère automatiquement le texte reconnu à la position du curseur pour continuer à taper dans l’app en cours.
  • Ne vole pas le focus : La fenêtre flottante est conçue pour ne pas perturber le flux de travail tout en restant dans l’app active.

Comment utiliser open-typeless

  1. Installer les dépendances : exécutez pnpm install.
  2. Configurer les variables d’environnement : copiez .env.example vers .env et remplissez les identifiants Volcano Engine.
    • VOLCENGINE_APP_ID
    • VOLCENGINE_ACCESS_TOKEN
    • VOLCENGINE_RESOURCE_ID (exemples dans le repo : volc.bigasr.sauc pour le modèle 1.0, ou volc.seedasr.sauc pour le modèle 2.0, recommandé)
  3. Démarrer l’app : exécutez pnpm start.
  4. Autoriser les permissions macOS au premier lancement :
    • Permission microphone (pour l’enregistrement)
    • Permission Accessibilité (Fonction auxiliaire) (pour la gestion du raccourci global et l’insertion de texte) Une fois les permissions accordées, laissez l’app tourner en arrière-plan.
  5. Dicter : Dans n’importe quel champ de texte, appuyez et maintenez Option droite, parlez, puis relâchez. L’app insère le texte reconnu au curseur.

Cas d’usage

  • Dictée de messages dans n’importe quel éditeur : Maintenez Option droite pour dicter dans un chat, un éditeur d’email ou un champ de document ; le texte reconnu apparaît au curseur sans collage manuel.
  • Remplissage de formulaires avec retour temps réel : Utilisez la superposition flottante pour surveiller ce que le système reconnaît pendant que vous parlez, puis relâchez pour valider le texte.
  • Prise de notes rapides entre apps : Démarrez et arrêtez la parole vite avec une touche appui-maintenu, en gardant le focus sur la fenêtre active.
  • Dépannage des problèmes de raccourci/insertion : Si le raccourci ne répond pas ou que le texte ne s’insère pas, vérifiez que la permission Accessibilité est activée pour l’app et que le curseur est dans un champ de saisie.

FAQ

  • Pourquoi le raccourci ne fonctionne-t-il pas ? Vérifiez que l’app a la permission Accessibilité (Fonction auxiliaire) dans Réglages Système → Confidentialité et sécurité → Accessibilité, et qu’elle figure dans la liste des apps autorisées.

  • Pourquoi l’app ne peut-elle pas insérer de texte ? L’app cible doit supporter la saisie de texte, et le curseur doit être dans un champ de saisie. Vérifiez aussi que la permission Accessibilité est bien autorisée.

  • Y a-t-il un délai au démarrage pour la reconnaissance vocale ? La première connexion au service Volcano Engine établit une connexion WebSocket et peut prendre 1–2 secondes ; les usages suivants sont souvent plus rapides.

  • Puis-je changer le raccourci ? Le dépôt indique que le raccourci est fixé sur la touche Option droite ; une personnalisation nécessite de modifier src/main/services/keyboard/keyboard.service.ts (notamment triggerKey).

Alternatives

  • Dictée/entrée vocale intégrée à macOS : Utile si vous préférez la reconnaissance vocale système sans configurer de credentials pour un fournisseur ASR externe. Le flux diffère car l’intégration et l’insertion sont gérées par macOS.
  • Outils de reconnaissance vocale générale avec copie/collage manuel : Adaptateurs fournissant une transcription mais nécessitant souvent un collage dans l’app cible, contrairement à l’insertion au curseur de ce projet.
  • Apps d’expansion de texte et dictée par raccourci : Outils aidant à insérer du texte via des raccourcis ; certains se concentrent sur les macros d’édition ou pipelines de transcription plutôt que sur l’ASR en streaming avec superposition verre dépoli et push-to-talk.
  • Autres intégrations de reconnaissance vocale pour développeurs : Si vous construisez votre propre flux, utilisez des API ASR et raccourcis globaux/presse-papiers ou API d’accessibilité ; cela diffère en nécessitant plus d’implémentation plutôt qu’une app prête à l’emploi.