UStackUStack
open-typeless icon

open-typeless

open-typeless es una app de reconocimiento de voz en macOS con pulsar y hablar: transmite la transcripción desde Volcano Engine e inserta el texto.

open-typeless

¿Qué es open-typeless?

open-typeless es una aplicación de escritorio para macOS creada como demostración del framework Trellis. Ofrece un flujo de trabajo de pulsar y hablar que graba el habla desde tu micrófono, realiza transcripción de voz a texto en streaming con el servicio ASR de Volcano Engine e inserta el texto reconocido en el cursor de texto actualmente enfocado.

El proyecto está pensado para usuarios que quieran dictar en cualquier app sin cambiar de ventana. También incluye una superposición flotante con estilo glassmorphism que muestra el estado de escucha actual y la transcripción en vivo mientras mantienes pulsada la tecla de acceso rápido.

Características principales

  • Tecla de acceso rápido pulsar y hablar (mantén pulsada): Mantén pulsada la tecla Option derecha para empezar a grabar; al soltarla se detiene la grabación e inserta el texto automáticamente.
  • Transcripción en streaming en tiempo real: Usa Volcano Engine ASR y transmite resultados parciales para que la superposición se actualice conforme avanza el reconocimiento.
  • Superposición flotante para estado y transcripción: Muestra un estado “Escuchando…” más el texto transcrito con apariencia de cristal esmerilado.
  • Inserción en el cursor sin cambiar de ventana: Inserta automáticamente el texto reconocido en la posición actual del cursor para que puedas seguir escribiendo en la app que usas.
  • No roba el foco: La ventana flotante está diseñada para no interrumpir el flujo de trabajo del usuario mientras permanece en su aplicación actual.

Cómo usar open-typeless

  1. Instala dependencias: ejecuta pnpm install.
  2. Configura variables de entorno: copia .env.example a .env y completa las credenciales de Volcano Engine.
    • VOLCENGINE_APP_ID
    • VOLCENGINE_ACCESS_TOKEN
    • VOLCENGINE_RESOURCE_ID (ejemplos en el repositorio: volc.bigasr.sauc para modelo 1.0, o volc.seedasr.sauc para modelo 2.0, marcado como recomendado)
  3. Inicia la app: ejecuta pnpm start.
  4. Autoriza permisos de macOS en el primer lanzamiento:
    • Permiso de micrófono (para grabar)
    • Permiso de Accesibilidad (función auxiliar) (para manejo de teclas globales e inserción de texto) Tras conceder los permisos, mantén la app ejecutándose en segundo plano.
  5. Dicta: En cualquier app con un campo de texto, pulsa y mantén Option derecha, habla y suelta. La app inserta el texto reconocido en el cursor.

Casos de uso

  • Dictado de mensajes en cualquier editor: Mantén pulsada Option derecha para dictar en un chat, editor de email o campo de documento; el texto reconocido aparece en el cursor sin pegar manualmente.
  • Rellenar formularios con retroalimentación en tiempo real: Usa la superposición flotante para monitorear lo que el sistema reconoce mientras hablas, luego suelta para confirmar el texto.
  • Tomar notas rápidas entre apps: Inicia y detén el habla rápidamente con una tecla pulsada, manteniendo el foco en la ventana activa.
  • Solución de problemas con teclas de acceso rápido/inserción de texto: Si la tecla no responde o no se inserta texto, verifica que el permiso de Accesibilidad esté activado para la app y que el cursor esté en un área de entrada.

Preguntas frecuentes

  • ¿Por qué no funciona la tecla de acceso rápido? Asegúrate de que la app tenga el permiso de Accesibilidad (función auxiliar) en Configuración del Sistema → Privacidad y seguridad → Accesibilidad, y que esté en la lista de apps permitidas.

  • ¿Por qué no puede la app insertar texto? La aplicación destino debe soportar entrada de texto, y el cursor debe estar en un área de entrada. También verifica que el permiso de Accesibilidad esté correctamente autorizado.

  • ¿Hay retraso inicial en el reconocimiento de voz? La primera conexión al servicio de Volcano Engine establece una conexión WebSocket y puede tardar 1–2 segundos; usos posteriores pueden ser más rápidos.

  • ¿Puedo cambiar la tecla de acceso rápido? El repositorio indica que la tecla está fija en Option derecha, y personalizarla requeriría modificar src/main/services/keyboard/keyboard.service.ts (específicamente triggerKey).

Alternativas

  • Dictado/entrada de voz integrada en macOS: Útil si prefieres transcripción de voz a nivel de sistema sin configurar credenciales para un proveedor ASR externo. El flujo difiere porque macOS maneja la integración e inserción.
  • Herramientas generales de voz a texto con copia/pega manual: Adaptadores que proporcionan transcripción pero suelen requerir pegar resultados en la app destino, a diferencia del enfoque de inserción en cursor de este proyecto.
  • Apps de expansión de texto y dictado con teclas rápidas: Herramientas que ayudan a insertar texto vía atajos; algunas se centran en macros de edición o pipelines de transcripción en vez de ASR en streaming con superposición esmerilada y pulsar y hablar.
  • Otras integraciones de voz a texto para desarrolladores: Si construyes tu propio flujo, puedes usar APIs ASR y teclas globales/portapapeles o APIs de accesibilidad; esto requiere más implementación en vez de usar una app lista.
open-typeless | UStack