Type4Me
Herramienta de entrada por voz en macOS con transcripción en tiempo real y procesamiento opcional con LLM; reconocimiento local y en la nube.
¿Qué es Type4Me?
Type4Me es una herramienta de entrada por voz en macOS que proporciona reconocimiento de voz a texto en tiempo real y procesamiento opcional de texto basado en LLM. Soporta motores de reconocimiento local (sin conexión) y en la nube, y está diseñada para ejecutarse con credenciales e historial de reconocimiento almacenados localmente.
Su propósito principal es ayudar a los usuarios a convertir voz en chino (y, con los modelos locales disponibles, bilingüe chino-inglés) en texto con inferencia más rápida en el dispositivo al usar reconocimiento local, al tiempo que permite flujos de trabajo configurables basados en prompts al usar modelos en la nube.
Características principales
- Reconocimiento de voz local (sin conexión): Usa el motor SherpaOnnx (Paraformer/Zipformer) para reconocimiento en el dispositivo sin claves API, configuración de cuentas en la nube ni dependencia de red.
- Reconocimiento en streaming en la nube: Se conecta al ASR en streaming de Volcengine (豆包) para generar texto mientras se habla, con un modo de rendimiento que puede usar reconocimiento de doble canal y luego optimizar con la grabación completa.
- Múltiples modos de procesamiento (incluidos prompts personalizados): Modos integrados que cubren escritura rápida en tiempo real, flujo de doble canal orientado al rendimiento, traducción al inglés, optimización de prompts y un modo de comandos donde la voz puede instruir a un LLM para actuar sobre texto seleccionado y contenidos del portapapeles; los usuarios también pueden escribir sus propios prompts.
- Variables de contexto en prompts: Las plantillas de prompts admiten variables como {text} (voz reconocida), {selected} (texto seleccionado al inicio de la grabación) y {clipboard} (contenido del portapapeles al inicio de la grabación), lo que permite flujos de trabajo de “voz como comando”.
- Almacenamiento local de datos: Las credenciales se guardan localmente en
~/Library/Application Support/Type4Me/credentials.json(permiso 0600), el historial de reconocimiento se almacena en una base de datos SQLite local y hay soporte para exportar historial como CSV por rango de fechas. - Gestión de vocabulario para ASR: Añade palabras calientes (p. ej., nombres propios) para mejorar la precisión de reconocimiento y soporta reemplazo de frases (p. ej., decir una etiqueta de correo y sustituir por la dirección real).
Cómo usar Type4Me
- Instalar en macOS 14+: Descarga el DMG de Type4Me v1.2.0 y arrastra Type4Me.app a Applications. El primer lanzamiento puede mostrar una advertencia estándar de seguridad de macOS para apps no de la App Store; se puede resolver vía Ajustes del Sistema o terminal
xattr. - Elegir un motor de reconocimiento:
- Instalación solo en la nube: El flujo del DMG soporta motores de reconocimiento en la nube.
- Reconocimiento local sin conexión (opcional): Si compilas desde el código fuente, puedes habilitar el motor Paraformer local y descargar archivos de modelos ASR en
~/Library/Application Support/Type4Me/Models/.
- Configurar motores y claves si usas la nube: Sigue las indicaciones de configuración del repositorio durante el asistente de primer uso para introducir la Volcengine App Key, Access Key y Resource ID.
- Configurar modos y atajos: En ajustes, selecciona motores local/Paraformer o en la nube, luego usa los modos integrados o prompts personalizados. Cada modo puede vincularse a su propio atajo global y puede usar “mantener pulsado para hablar” o “pulsar una vez para iniciar/detener”.
Casos de uso
- Dictado sin conexión para entornos sin red fiable: Usa el motor Paraformer (SherpaOnnx) local para transcribir voz completamente en el dispositivo sin claves API.
- Escritura en tiempo real con mínima latencia: Usa el modo Quick para insertar el reconocimiento tan pronto como esté listo el resultado.
- Flujos de salida bilingües: Con un modelo local bilingüe, dicta voz en chino y genera traducciones al inglés con el modo English Translation.
- Comandos de voz que actúan sobre lo que ves: Selecciona texto en un editor, pulsa el atajo asignado, di un comando (p. ej., “traduce el texto seleccionado”) y deja que el prompt reciba el contexto
{selected}y{clipboard}. - Mejorar precisión con vocabulario específico del dominio: Añade nombres de organizaciones, productos o términos técnicos como palabras calientes de ASR, y usa reemplazo de frases para formatos sensibles repetibles como direcciones de correo.
Preguntas frecuentes
-
¿Por qué macOS muestra una advertencia al primer lanzamiento? macOS muestra una advertencia de seguridad al abrir apps que no provienen de la App Store. El repositorio proporciona dos métodos para permitir la apertura (recomendado Ajustes del Sistema, o terminal
xattr -d com.apple.quarantine). -
¿Necesito una clave API para el reconocimiento local? No. Al usar el motor local basado en SherpaOnnx, el reconocimiento se ejecuta en el dispositivo y no requiere claves API ni cuentas en la nube.
-
¿Dónde se almacenan mis credenciales e historial de reconocimiento? Las credenciales se guardan localmente en
~/Library/Application Support/Type4Me/credentials.jsoncon permisos 0600. El historial de reconocimiento se almacena en una base de datos SQLite local y se puede exportar a CSV por rango de fechas. -
¿Puedo personalizar cómo se procesa el texto reconocido? Sí. Type4Me incluye modos integrados y soporta plantillas de prompts personalizadas. Las variables de prompt incluyen
{text},{selected}y{clipboard}. -
¿Está disponible el reconocimiento local en el DMG precompilado? El repositorio indica que el flujo de descarga del DMG soporta motores de reconocimiento en la nube. El reconocimiento local offline requiere compilar desde el código fuente y descargar los archivos de modelo SherpaOnnx relevantes.
Alternativas
- Dictado integrado de macOS: Una opción nativa conveniente para voz a texto, típicamente limitada en integración de procesamiento LLM basado en prompts y selección de motores offline.
- Herramientas locales/offline de voz a texto (apps ASR o CLIs): Pueden ejecutarse sin red como el modo local de Type4Me, pero pueden no ofrecer los mismos modos impulsados por prompts y flujos de trabajo con contexto de atajo/portapapeles.
- Plataformas de transcripción en la nube con APIs: Útiles cuando buscas precisión gestionada de un modelo en la nube, pero requieren acceso a red y generalmente implican gestión de cuentas/claves API, a diferencia de la capacidad local-first de Type4Me.
- Productos de escritura por voz en navegador/escritorio: Se centran en dictado directo dentro de apps; el flujo distintivo de Type4Me es combinar reconocimiento con modos de prompt configurables y almacenamiento/exportación local del historial de reconocimiento.
Alternativas
Tactiq
Tactiq es un asistente de reuniones AI que proporciona transcripción en vivo, resúmenes AI, elementos de acción y mensajes personalizados de AI para Google Meet, Zoom y Teams.
Tavus
Tavus crea sistemas de IA que ven, oyen y responden en tiempo real para interacciones cara a cara, con agentes de vídeo y gemelos digitales vía APIs.
AakarDev AI
AakarDev AI es una plataforma poderosa que simplifica el desarrollo de aplicaciones de IA con integración fluida de bases de datos vectoriales, permitiendo un despliegue y escalabilidad rápidos.
Sanota
Sanota convierte tu voz en texto claro y bonito para capturar recuerdos e ideas con facilidad y empezar gratis.
BookAI.chat
BookAI te permite chatear con tus libros usando IA simplemente proporcionando el título y el autor.
skills-janitor
skills-janitor audita y registra el uso de tus habilidades de Claude Code, comparándolas con 9 acciones de slash y sin dependencias.