doing

Голосовой и скриншот-ввод для AI-разработчиков на Mac: локальная расшифровка без загрузки в облако и без аккаунта. Разовая загрузка $49.

AI Распознавание речи

Транскрибация

Речь в текст

Посетить Сайт

Что такое doing?

doing — это приложение для Mac для голосового ввода и расшифровки, работающее локально и с акцентом на приватность. Оно начинает слушать при удержании горячей клавиши, расшифровывает речь в реальном времени и вставляет получившийся текст в позицию активного курсора — так вы можете говорить вместо набора текста при использовании AI-инструментов и любых текстовых полей.

Основная цель — локальная расшифровка без загрузки в облако и без аккаунта. Продукт также поддерживает прикрепление скриншотов к записи и предлагает настраиваемую постобработку («Skills») перед вставкой расшифровки.

Ключевые возможности

Расшифровка по удержанию горячей клавиши: Начните прослушивание, удерживая горячую клавишу, говорите, пока текст расшифровывается в реальном времени; отпустите, чтобы вставить у курсора.
Локальная и приватная обработка аудио: Разработано так, что ваш голос не покидает Mac — без облачной расшифровки, без аккаунта и без загрузки аудио.
Захват скриншотов, прикреплённый к расшифровке: При удержании горячей клавиши перетащите прямоугольник на экране, чтобы захватить скриншоты, связанные с той же сессией расшифровки.
Вставка на системном уровне в активный курсор: Работает везде, где можно печатать (браузер, редактор, терминал и т. д.), вставляя в текущую позицию курсора.
YOLO Mode для быстрой передачи в AI-промпты: При активации doing нажимает Return после вставки расшифровки, чтобы запустить промпт без лишних шагов.
Skills для постобработки расшифровки: Определите действия, которые обрабатывают расшифровку перед вставкой (примеры: формализация, суммирование, преобразование в кодовый промпт или замена текста на эмодзи), с поведением «app-aware» в зависимости от места вставки.
Варианты движков с бенчмарками: Поставляется с локальным движком (Parakeet) и поддерживает свои API-ключи для облачных движков; включает инструмент бенчмаркинга для тестирования провайдеров на одном аудио.
Даккинг аудио во время записи: Автоматически приглушает музыку/аудио при старте записи и восстанавливает после остановки.

Как использовать doing

Скачайте и установите на Mac (macOS 14+ на Apple Silicon).
В текстовом поле удерживайте настроенную горячую клавишу (показана как fn Talk), чтобы начать прослушивание.
Говорите, пока расшифровка обновляется в реальном времени.
Отпустите горячую клавишу, чтобы вставить расшифровку в позицию курсора.
Опционально захватывайте скриншоты, перетаскивая прямоугольник во время записи, и/или включите YOLO Mode, чтобы doing нажал Return после вставки.
Для другого поведения расшифровки настройте Skills и (при необходимости) выберите движок — встроенный локальный или облачные через свой API-ключ.

Сценарии использования

Общайтесь с AI-ассистентом для кода из редактора: Используйте голосовую расшифровку и вставку на системном уровне, чтобы текст попал прямо в поле ввода, затем нажмите Return (с YOLO Mode), чтобы отправить.
Готовьте структурированные сообщения для разных приложений: Используйте Skills с учётом приложения для переписывания или форматирования расшифровки (например, формализация для email или суммирование в пункты для инструментов продуктивности).
Описывайте баги с визуальным контекстом: Во время записи голоса захватывайте один или несколько скриншотов, чтобы визуальные детали прикрепились к сессии расшифровки.
Генерируйте кодовые промпты из устного описания: Используйте Skill для кодовых промптов, чтобы преобразовать устное описание в техническую инструкцию для ассистента кода.
Проводите тесты расшифровки бок о бок: Используйте встроенный инструмент бенчмаркинга, чтобы сравнить локальный движок с другими на одном аудио и выбрать по скорости/стоимости.

FAQ

Загружает ли doing моё аудио в облако? Страница указывает, что doing расшифровывает локально без загрузки аудио и без облачной расшифровки.
Нужен ли аккаунт для doing? Аккаунт не требуется, согласно странице.
Что такое YOLO Mode и как оно меняет рабочий процесс? YOLO Mode вставляет расшифровку и автоматически нажимает Return, чтобы AI-промпт запустился сразу.
Может ли doing работать со скриншотами и голосом вместе? Да. При удержании горячей клавиши перетащите прямоугольник, чтобы захватить скриншоты, которые автоматически прикрепятся к расшифровке.
Можно ли выбрать разные движки расшифровки? Страница указывает, что doing поставляется с локальным движком (Parakeet) и поддерживает свои API-ключи для облачных; также есть инструмент бенчмаркинга для теста на одном аудио.

Альтернативы

Встроенная в macOS локальная голосовая печать (системная диктовка): Обеспечивает преобразование речи в текст для общего набора, но не предлагает такой же рабочий процесс транскрипции по горячим клавишам к курсору, прикрепление скриншотов или постобработку «Навыки», как в doing.
Облачные сервисы/API транскрипции: Обычно требуют загрузки аудио и могут включать аккаунты или оплату за использование; doing позиционируется как локальный/без-загрузки-аудио с опциональными своими-ключами движками.
Другие AI-инструменты голосового ввода с подпиской: Страница сравнивает разовую цену doing $49 с другими инструментами, которые берут $8–15 в месяц; альтернативы могут отличаться моделью приватности (облако vs локально) и recurring-стоимостью.
Расширения для горячих клавиш голосового ввода в браузере/редакторе: Могут сократить набор в конкретных приложениях, но doing представлен как системный, работает везде, где можно печатать (не ограничен одним сайтом или редактором).

Альтернативы

Speech to Text Converter Online

Бесплатный онлайн-инструмент, который преобразует аудио- и видеофайлы в точные текстовые транскрипции на более чем 45 языках. Поддерживает множество форматов файлов и не требует загрузок или регистрации.

Dictato

Dictato — офлайн диктовка речи в текст для macOS без облака и тайм-аута: расшифровка на устройстве и вставка в любое приложение.

Sanota

Sanota превращает ваш голос в четкий и красивый текст — чтобы легко сохранять воспоминания и идеи. Начните бесплатно.

OpenAI Realtime API

Создавайте голосовые и realtime-аудио-сценарии с низкой задержкой с OpenAI Realtime API: браузерные voice agents и realtime-транскрипция.

Pewbeam

Pewbeam слушает вашу проповедь и в реальном времени находит библейские стихи, выводя их на экран без ввода и задержек для пасторов и команд проекций.

Voicenotes

Voicenotes — AI-переводчик голосовых заметок и встреч в текст: расшифровка 100+ языков для удобного просмотра и повторного использования.