Type4Me
Ferramenta de ditado por voz no macOS com transcrição em tempo real e processamento de texto opcional por prompt de LLM, local/offline e cloud.
O que é Type4Me?
Type4Me é uma ferramenta de ditado por voz no macOS que oferece reconhecimento de fala para texto em tempo real e processamento de texto opcional baseado em LLM. Ela suporta engines de reconhecimento locais (offline) e na nuvem, projetada para funcionar com credenciais e histórico de reconhecimento armazenados localmente.
Seu propósito principal é ajudar os usuários a converter fala em chinês (e, com os modelos locais disponíveis, bilíngue chinês-inglês) em texto, com inferência mais rápida no dispositivo ao usar reconhecimento local, além de permitir fluxos de trabalho configuráveis baseados em prompts ao usar modelos na nuvem.
Principais Recursos
- Reconhecimento de fala local (offline): Usa o engine SherpaOnnx (Paraformer/Zipformer) para reconhecimento no dispositivo sem chaves de API, configuração de conta na nuvem ou dependência de rede.
- Reconhecimento em streaming na nuvem: Conecta ao Volcengine (豆包) streaming ASR para gerar texto enquanto fala, com modo de desempenho que pode usar reconhecimento de duplo canal e depois otimizar com a gravação completa.
- Múltiplos modos de processamento (incluindo prompts personalizados): Modos integrados cobrem digitação rápida em tempo real, fluxo de duplo canal otimizado para desempenho, tradução para inglês, otimização por prompt e um modo de comando onde a fala pode instruir um LLM a agir sobre texto selecionado e conteúdo da área de transferência; os usuários também podem criar seus próprios prompts.
- Variáveis de contexto em prompts: Modelos de prompt suportam variáveis como {text} (fala reconhecida), {selected} (texto selecionado no início da gravação) e {clipboard} (conteúdo da área de transferência no início da gravação), permitindo fluxos de trabalho de “voz vira comando”.
- Armazenamento local de dados: Credenciais salvas localmente em
~/Library/Application Support/Type4Me/credentials.json(permissão 0600), histórico de reconhecimento em banco SQLite local, com suporte para exportar histórico como CSV por intervalo de datas. - Gerenciamento de vocabulário para ASR: Adiciona palavras quentes (ex.: nomes próprios) para melhorar a precisão do reconhecimento e suporta substituição de frases (ex.: falar um rótulo de e-mail e substituir pelo endereço real).
Como Usar o Type4Me
- Instale no macOS 14+: Baixe o DMG do Type4Me v1.2.0 e arraste Type4Me.app para Applications. Na primeira execução, pode aparecer um aviso de segurança padrão do macOS para apps não da App Store; resolva via Configurações do Sistema ou terminal
xattr. - Escolha um engine de reconhecimento:
- Instalação apenas nuvem: O fluxo do DMG suporta engines de reconhecimento na nuvem.
- Reconhecimento local offline (opcional): Se compilar do fonte, ative o engine Paraformer local e baixe arquivos de modelo ASR para
~/Library/Application Support/Type4Me/Models/.
- Configure engines e chaves se usar nuvem: Siga as instruções do repositório no assistente de primeira execução para inserir Volcengine App Key, Access Key e Resource ID.
- Configure modos e atalhos: Nas configurações, selecione engines local/Paraformer ou nuvem, use modos integrados ou prompts personalizados. Cada modo pode ter seu próprio atalho global e usar “pressione e segure para falar” ou “pressione uma vez para iniciar/parar”.
Casos de Uso
- Ditado offline em ambientes sem rede confiável: Use o engine Paraformer local (SherpaOnnx) para transcrever fala totalmente no dispositivo sem chaves de API.
- Digitação em tempo real com delay mínimo: Use o modo Quick para inserir o reconhecimento assim que o resultado estiver pronto.
- Fluxos de saída bilíngue: Com modelo local bilíngue, dite fala em chinês e gere traduções em inglês no modo English Translation.
- Comandos de voz que agem no que você vê: Selecione texto em um editor, pressione o atalho vinculado, diga um comando (ex.: “traduza o texto selecionado”) e deixe o prompt receber contexto de
{selected}e{clipboard}. - Melhorar precisão com vocabulário específico de domínio: Adicione nomes de organizações, produtos ou termos técnicos como palavras quentes do ASR, e use substituição de frases para formatos sensíveis repetíveis como endereços de e-mail.
FAQ
-
Por que o macOS exibe um aviso na primeira execução? O macOS mostra um aviso de segurança ao abrir apps que não são da App Store. O repositório fornece dois métodos para permitir a abertura (Configurações do Sistema recomendado, ou terminal
xattr -d com.apple.quarantine). -
Preciso de uma chave de API para reconhecimento local? Não. Ao usar o motor local baseado em SherpaOnnx, o reconhecimento roda no dispositivo e não requer chaves de API ou contas em nuvem.
-
Onde minhas credenciais e histórico de reconhecimento são armazenados? As credenciais são salvas localmente em
~/Library/Application Support/Type4Me/credentials.jsoncom permissão 0600. O histórico de reconhecimento é armazenado em um banco SQLite local e pode ser exportado para CSV por intervalo de datas. -
Posso personalizar como o texto reconhecido é processado? Sim. O Type4Me inclui modos integrados e suporta templates de prompt personalizados. Variáveis de prompt incluem
{text},{selected}e{clipboard}. -
O reconhecimento local está disponível no DMG pré-compilado? O repositório nota que o fluxo de download do DMG suporta motores de reconhecimento em nuvem. O reconhecimento local/offline requer compilação a partir do fonte e download dos arquivos de modelo SherpaOnnx relevantes.
Alternativas
- Ditado integrado do macOS: Uma opção nativa conveniente para fala-para-texto, tipicamente limitada na integração com processamento LLM por prompt e seleção de motor offline.
- Ferramentas locais/offline de fala-para-texto (apps ASR ou CLIs): Podem rodar sem rede como o modo local do Type4Me, mas podem não oferecer os mesmos modos impulsionados por prompt e fluxo de atalhos/contexto da área de transferência.
- Plataformas de transcrição baseadas em nuvem com APIs: Úteis quando se quer precisão gerenciada de um modelo em nuvem, mas requerem acesso à rede e geralmente envolvem gerenciamento de conta/chave de API, diferente da capacidade local-first do Type4Me.
- Produtos de digitação por voz para navegador/desktop: Focam em ditado direto dentro de apps; o fluxo distintivo do Type4Me é combinar reconhecimento com modos de prompt configuráveis e armazenamento/exportação local do histórico de reconhecimento.
Alternativas
Tactiq
Tactiq é um assistente de reuniões AI que fornece transcrição ao vivo, resumos AI, itens de ação e prompts AI personalizados para Google Meet, Zoom e Teams.
Tavus
Tavus desenvolve sistemas de IA em tempo real para interações face a face, com visão, audição e resposta, além de vídeo agentes e companheiros via APIs.
AakarDev AI
AakarDev AI é uma plataforma poderosa que simplifica o desenvolvimento de aplicações de IA com integração perfeita de banco de dados vetorial, permitindo implantação rápida e escalabilidade.
Sanota
Sanota transforma sua voz em texto claro e bonito para você capturar memórias e ideias com facilidade. Comece grátis.
BookAI.chat
BookAI permite que você converse com seus livros usando IA, simplesmente fornecendo o título e o autor.
skills-janitor
skills-janitor audita, rastreia e compara suas skills do Claude Code com nove ações focadas por comandos slash, sem dependências.