doing
Transcrição por voz e captura de tela no Mac para criadores de IA, com processamento local e sem upload na nuvem nem conta. Download único de US$49.
O que é doing?
doing é um aplicativo para Mac que permite entrada e transcrição por voz, funcionando localmente e com privacidade por design. Ele escuta quando você segura uma tecla de atalho, transcreve sua fala em tempo real e cola o texto resultante no local do cursor ativo — para que você possa falar em vez de digitar enquanto usa ferramentas de IA e qualquer campo de texto.
O propósito principal é transcrição no dispositivo, sem upload na nuvem e sem conta. O produto também suporta anexar capturas de tela a uma gravação e oferece pós-processamento configurável (“Skills”) antes de colar a transcrição.
Principais Recursos
- Transcrição por voz com tecla de atalho pressionada: Inicie a escuta segurando uma tecla de atalho, fale enquanto o texto é transcrito em tempo real; solte para colar no cursor.
- Manipulação local e privada de áudio: Projetado para que sua voz nunca saia do Mac — sem transcrição na nuvem, sem conta e sem áudio enviado.
- Captura de tela anexada à transcrição: Enquanto segura a tecla de atalho, arraste um retângulo em qualquer lugar da tela para capturar screenshots vinculados à mesma sessão de transcrição.
- Colagem em nível de sistema no cursor ativo: Funciona em qualquer lugar onde você possa digitar (navegador, editor, terminal etc.), colando no local do cursor atual.
- Modo YOLO para handoff rápido a prompts de IA: Quando ativado, doing pressiona Return após colar a transcrição para executar o prompt sem passos extras.
- Skills para pós-processamento da transcrição: Defina ações que processam a transcrição antes de colar (exemplos incluem formalizar, resumir, converter em prompt de código ou substituir texto por emoji), com comportamento “consciente do app” baseado no local de colagem.
- Opções de engine com benchmarks: Vem com engine no dispositivo (Parakeet) e pode usar chaves de API próprias para múltiplos engines na nuvem; inclui ferramenta de benchmark para testar provedores no mesmo áudio.
- Redução de áudio durante gravação: Diminui automaticamente música/áudio quando a gravação inicia e restaura após parar.
Como Usar o doing
- Baixe e instale no Mac (macOS 14+ em Apple Silicon é listado).
- Em um campo de texto, segure a tecla de atalho configurada (mostrada como fn Talk) para começar a escutar.
- Fale enquanto a transcrição atualiza em tempo real.
- Solte a tecla de atalho para colar a transcrição na posição do cursor.
- Opcionalmente capture screenshots arrastando um retângulo durante a gravação e/ou ative o Modo YOLO para que o doing pressione Return após colar.
- Se quiser comportamento de transcrição diferente, configure Skills e (quando aplicável) selecione o engine de transcrição — seja a opção integrada no dispositivo ou engines na nuvem via sua própria chave de API.
Casos de Uso
- Fale com um assistente de codificação de IA do seu editor: Use transcrição por voz e colagem em nível de sistema para que a transcrição caia diretamente na caixa de entrada onde você trabalha, depois pressione Return (com Modo YOLO) para enviar.
- Prepare mensagens estruturadas para apps diferentes: Use Skills conscientes do app para reescrever ou formatar sua transcrição para contextos como e-mail (formalizar) ou ferramentas de produtividade (resumir em bullets).
- Descreva bugs com contexto visual: Enquanto grava sua voz, capture uma ou mais screenshots para que os detalhes visuais sejam anexados à sessão de transcrição.
- Gere prompts orientados a código a partir de intenção falada: Use um Skill de prompt de código para converter uma descrição falada em uma instrução técnica adequada para um assistente de codificação.
- Execute testes de transcrição lado a lado: Use a ferramenta de benchmark integrada para comparar o engine no dispositivo contra outros engines disponíveis usando a mesma amostra de áudio, escolhendo com base em trade-offs de velocidade/custo.
FAQ
-
O doing envia meu áudio para a nuvem? A página afirma que o doing transcreve localmente sem áudio enviado e sem transcrição na nuvem.
-
Preciso de uma conta para usar o doing? Nenhuma conta é necessária, conforme a página.
-
O que é Modo YOLO e o que ele muda no fluxo de trabalho? O Modo YOLO cola a transcrição e depois pressiona Return automaticamente, para que o prompt de IA execute imediatamente.
-
O doing funciona com screenshots e voz juntos? Sim. Enquanto segura a tecla de atalho, você pode arrastar um retângulo para capturar screenshots que são anexados à transcrição automaticamente.
-
Posso escolher engines de transcrição diferentes? A página indica que o doing vem com um engine local (Parakeet) e pode usar chaves de API próprias para engines na nuvem; também inclui uma ferramenta de benchmark para testar engines no mesmo áudio.
Alternativas
- Ditado por voz integrado no macOS (ditado do sistema): Oferece conversão de fala em texto para digitação geral, mas não tem o mesmo fluxo de transcrição ativada por atalho até o cursor, anexo de captura de tela ou “Skills” de pós-processamento descritos para o doing.
- Serviços/APIs de transcrição em nuvem: Geralmente exigem upload de áudio e podem envolver contas ou custos por uso do provedor; o doing se posiciona como local/sem-upload-de-áudio e engines opcionais traga-sua-própria-chave.
- Outras ferramentas de entrada de voz por IA com cobrança de assinatura: A página compara o preço único de US$49 do doing com outras ferramentas que cobram US$8–15 por mês; alternativas podem diferir no modelo de privacidade (nuvem vs local) e custo recorrente.
- Extensões de entrada de voz por atalho em navegadores/editores: Podem reduzir digitação em apps específicos, mas o doing é apresentado como nível de sistema, funcionando onde você pode digitar (não limitado a um site ou editor único).
Alternativas
Speech to Text Converter Online
Uma ferramenta online gratuita que converte ficheiros de áudio e vídeo em transcrições de texto precisas em mais de 45 idiomas. Suporta inúmeros formatos de ficheiro e não requer downloads ou registos.
Dictato
Dictato é um app de ditado por voz offline para macOS: transcreve no dispositivo e insere o texto em qualquer app. Suporta Whisper, Parakeet e Apple.
Memo AI
Serviço de transcrição impulsionado por IA que converte arquivos de áudio e vídeo em texto.
Sanota
Sanota transforma sua voz em texto claro e bonito para você capturar memórias e ideias com facilidade. Comece grátis.
OpenAI Realtime API
Crie experiências de voz multimodais e em tempo real com baixa latência usando a OpenAI Realtime API, incluindo agentes de voz no navegador e transcrição.
Pewbeam
Pewbeam ouve enquanto você prega, detecta versículos em tempo real e os exibe na tela instantaneamente, sem digitar ou clicar.