UStackUStack
Type4Me icon

Type4Me

Ferramenta de ditado por voz no macOS com transcrição em tempo real e processamento de texto opcional por prompt de LLM, local/offline e cloud.

Type4Me

O que é Type4Me?

Type4Me é uma ferramenta de ditado por voz no macOS que oferece reconhecimento de fala para texto em tempo real e processamento de texto opcional baseado em LLM. Ela suporta engines de reconhecimento locais (offline) e na nuvem, projetada para funcionar com credenciais e histórico de reconhecimento armazenados localmente.

Seu propósito principal é ajudar os usuários a converter fala em chinês (e, com os modelos locais disponíveis, bilíngue chinês-inglês) em texto, com inferência mais rápida no dispositivo ao usar reconhecimento local, além de permitir fluxos de trabalho configuráveis baseados em prompts ao usar modelos na nuvem.

Principais Recursos

  • Reconhecimento de fala local (offline): Usa o engine SherpaOnnx (Paraformer/Zipformer) para reconhecimento no dispositivo sem chaves de API, configuração de conta na nuvem ou dependência de rede.
  • Reconhecimento em streaming na nuvem: Conecta ao Volcengine (豆包) streaming ASR para gerar texto enquanto fala, com modo de desempenho que pode usar reconhecimento de duplo canal e depois otimizar com a gravação completa.
  • Múltiplos modos de processamento (incluindo prompts personalizados): Modos integrados cobrem digitação rápida em tempo real, fluxo de duplo canal otimizado para desempenho, tradução para inglês, otimização por prompt e um modo de comando onde a fala pode instruir um LLM a agir sobre texto selecionado e conteúdo da área de transferência; os usuários também podem criar seus próprios prompts.
  • Variáveis de contexto em prompts: Modelos de prompt suportam variáveis como {text} (fala reconhecida), {selected} (texto selecionado no início da gravação) e {clipboard} (conteúdo da área de transferência no início da gravação), permitindo fluxos de trabalho de “voz vira comando”.
  • Armazenamento local de dados: Credenciais salvas localmente em ~/Library/Application Support/Type4Me/credentials.json (permissão 0600), histórico de reconhecimento em banco SQLite local, com suporte para exportar histórico como CSV por intervalo de datas.
  • Gerenciamento de vocabulário para ASR: Adiciona palavras quentes (ex.: nomes próprios) para melhorar a precisão do reconhecimento e suporta substituição de frases (ex.: falar um rótulo de e-mail e substituir pelo endereço real).

Como Usar o Type4Me

  1. Instale no macOS 14+: Baixe o DMG do Type4Me v1.2.0 e arraste Type4Me.app para Applications. Na primeira execução, pode aparecer um aviso de segurança padrão do macOS para apps não da App Store; resolva via Configurações do Sistema ou terminal xattr.
  2. Escolha um engine de reconhecimento:
    • Instalação apenas nuvem: O fluxo do DMG suporta engines de reconhecimento na nuvem.
    • Reconhecimento local offline (opcional): Se compilar do fonte, ative o engine Paraformer local e baixe arquivos de modelo ASR para ~/Library/Application Support/Type4Me/Models/.
  3. Configure engines e chaves se usar nuvem: Siga as instruções do repositório no assistente de primeira execução para inserir Volcengine App Key, Access Key e Resource ID.
  4. Configure modos e atalhos: Nas configurações, selecione engines local/Paraformer ou nuvem, use modos integrados ou prompts personalizados. Cada modo pode ter seu próprio atalho global e usar “pressione e segure para falar” ou “pressione uma vez para iniciar/parar”.

Casos de Uso

  • Ditado offline em ambientes sem rede confiável: Use o engine Paraformer local (SherpaOnnx) para transcrever fala totalmente no dispositivo sem chaves de API.
  • Digitação em tempo real com delay mínimo: Use o modo Quick para inserir o reconhecimento assim que o resultado estiver pronto.
  • Fluxos de saída bilíngue: Com modelo local bilíngue, dite fala em chinês e gere traduções em inglês no modo English Translation.
  • Comandos de voz que agem no que você vê: Selecione texto em um editor, pressione o atalho vinculado, diga um comando (ex.: “traduza o texto selecionado”) e deixe o prompt receber contexto de {selected} e {clipboard}.
  • Melhorar precisão com vocabulário específico de domínio: Adicione nomes de organizações, produtos ou termos técnicos como palavras quentes do ASR, e use substituição de frases para formatos sensíveis repetíveis como endereços de e-mail.

FAQ

  • Por que o macOS exibe um aviso na primeira execução? O macOS mostra um aviso de segurança ao abrir apps que não são da App Store. O repositório fornece dois métodos para permitir a abertura (Configurações do Sistema recomendado, ou terminal xattr -d com.apple.quarantine).

  • Preciso de uma chave de API para reconhecimento local? Não. Ao usar o motor local baseado em SherpaOnnx, o reconhecimento roda no dispositivo e não requer chaves de API ou contas em nuvem.

  • Onde minhas credenciais e histórico de reconhecimento são armazenados? As credenciais são salvas localmente em ~/Library/Application Support/Type4Me/credentials.json com permissão 0600. O histórico de reconhecimento é armazenado em um banco SQLite local e pode ser exportado para CSV por intervalo de datas.

  • Posso personalizar como o texto reconhecido é processado? Sim. O Type4Me inclui modos integrados e suporta templates de prompt personalizados. Variáveis de prompt incluem {text}, {selected} e {clipboard}.

  • O reconhecimento local está disponível no DMG pré-compilado? O repositório nota que o fluxo de download do DMG suporta motores de reconhecimento em nuvem. O reconhecimento local/offline requer compilação a partir do fonte e download dos arquivos de modelo SherpaOnnx relevantes.

Alternativas

  • Ditado integrado do macOS: Uma opção nativa conveniente para fala-para-texto, tipicamente limitada na integração com processamento LLM por prompt e seleção de motor offline.
  • Ferramentas locais/offline de fala-para-texto (apps ASR ou CLIs): Podem rodar sem rede como o modo local do Type4Me, mas podem não oferecer os mesmos modos impulsionados por prompt e fluxo de atalhos/contexto da área de transferência.
  • Plataformas de transcrição baseadas em nuvem com APIs: Úteis quando se quer precisão gerenciada de um modelo em nuvem, mas requerem acesso à rede e geralmente envolvem gerenciamento de conta/chave de API, diferente da capacidade local-first do Type4Me.
  • Produtos de digitação por voz para navegador/desktop: Focam em ditado direto dentro de apps; o fluxo distintivo do Type4Me é combinar reconhecimento com modos de prompt configuráveis e armazenamento/exportação local do histórico de reconhecimento.
Type4Me | UStack