doing
Голосовой и скриншот-ввод для AI-разработчиков на Mac: локальная расшифровка без загрузки в облако и без аккаунта. Разовая загрузка $49.
Что такое doing?
doing — это приложение для Mac для голосового ввода и расшифровки, работающее локально и с акцентом на приватность. Оно начинает слушать при удержании горячей клавиши, расшифровывает речь в реальном времени и вставляет получившийся текст в позицию активного курсора — так вы можете говорить вместо набора текста при использовании AI-инструментов и любых текстовых полей.
Основная цель — локальная расшифровка без загрузки в облако и без аккаунта. Продукт также поддерживает прикрепление скриншотов к записи и предлагает настраиваемую постобработку («Skills») перед вставкой расшифровки.
Ключевые возможности
- Расшифровка по удержанию горячей клавиши: Начните прослушивание, удерживая горячую клавишу, говорите, пока текст расшифровывается в реальном времени; отпустите, чтобы вставить у курсора.
- Локальная и приватная обработка аудио: Разработано так, что ваш голос не покидает Mac — без облачной расшифровки, без аккаунта и без загрузки аудио.
- Захват скриншотов, прикреплённый к расшифровке: При удержании горячей клавиши перетащите прямоугольник на экране, чтобы захватить скриншоты, связанные с той же сессией расшифровки.
- Вставка на системном уровне в активный курсор: Работает везде, где можно печатать (браузер, редактор, терминал и т. д.), вставляя в текущую позицию курсора.
- YOLO Mode для быстрой передачи в AI-промпты: При активации doing нажимает Return после вставки расшифровки, чтобы запустить промпт без лишних шагов.
- Skills для постобработки расшифровки: Определите действия, которые обрабатывают расшифровку перед вставкой (примеры: формализация, суммирование, преобразование в кодовый промпт или замена текста на эмодзи), с поведением «app-aware» в зависимости от места вставки.
- Варианты движков с бенчмарками: Поставляется с локальным движком (Parakeet) и поддерживает свои API-ключи для облачных движков; включает инструмент бенчмаркинга для тестирования провайдеров на одном аудио.
- Даккинг аудио во время записи: Автоматически приглушает музыку/аудио при старте записи и восстанавливает после остановки.
Как использовать doing
- Скачайте и установите на Mac (macOS 14+ на Apple Silicon).
- В текстовом поле удерживайте настроенную горячую клавишу (показана как fn Talk), чтобы начать прослушивание.
- Говорите, пока расшифровка обновляется в реальном времени.
- Отпустите горячую клавишу, чтобы вставить расшифровку в позицию курсора.
- Опционально захватывайте скриншоты, перетаскивая прямоугольник во время записи, и/или включите YOLO Mode, чтобы doing нажал Return после вставки.
- Для другого поведения расшифровки настройте Skills и (при необходимости) выберите движок — встроенный локальный или облачные через свой API-ключ.
Сценарии использования
- Общайтесь с AI-ассистентом для кода из редактора: Используйте голосовую расшифровку и вставку на системном уровне, чтобы текст попал прямо в поле ввода, затем нажмите Return (с YOLO Mode), чтобы отправить.
- Готовьте структурированные сообщения для разных приложений: Используйте Skills с учётом приложения для переписывания или форматирования расшифровки (например, формализация для email или суммирование в пункты для инструментов продуктивности).
- Описывайте баги с визуальным контекстом: Во время записи голоса захватывайте один или несколько скриншотов, чтобы визуальные детали прикрепились к сессии расшифровки.
- Генерируйте кодовые промпты из устного описания: Используйте Skill для кодовых промптов, чтобы преобразовать устное описание в техническую инструкцию для ассистента кода.
- Проводите тесты расшифровки бок о бок: Используйте встроенный инструмент бенчмаркинга, чтобы сравнить локальный движок с другими на одном аудио и выбрать по скорости/стоимости.
FAQ
-
Загружает ли doing моё аудио в облако? Страница указывает, что doing расшифровывает локально без загрузки аудио и без облачной расшифровки.
-
Нужен ли аккаунт для doing? Аккаунт не требуется, согласно странице.
-
Что такое YOLO Mode и как оно меняет рабочий процесс? YOLO Mode вставляет расшифровку и автоматически нажимает Return, чтобы AI-промпт запустился сразу.
-
Может ли doing работать со скриншотами и голосом вместе? Да. При удержании горячей клавиши перетащите прямоугольник, чтобы захватить скриншоты, которые автоматически прикрепятся к расшифровке.
-
Можно ли выбрать разные движки расшифровки? Страница указывает, что doing поставляется с локальным движком (Parakeet) и поддерживает свои API-ключи для облачных; также есть инструмент бенчмаркинга для теста на одном аудио.
Альтернативы
- Встроенная в macOS локальная голосовая печать (системная диктовка): Обеспечивает преобразование речи в текст для общего набора, но не предлагает такой же рабочий процесс транскрипции по горячим клавишам к курсору, прикрепление скриншотов или постобработку «Навыки», как в doing.
- Облачные сервисы/API транскрипции: Обычно требуют загрузки аудио и могут включать аккаунты или оплату за использование; doing позиционируется как локальный/без-загрузки-аудио с опциональными своими-ключами движками.
- Другие AI-инструменты голосового ввода с подпиской: Страница сравнивает разовую цену doing $49 с другими инструментами, которые берут $8–15 в месяц; альтернативы могут отличаться моделью приватности (облако vs локально) и recurring-стоимостью.
- Расширения для горячих клавиш голосового ввода в браузере/редакторе: Могут сократить набор в конкретных приложениях, но doing представлен как системный, работает везде, где можно печатать (не ограничен одним сайтом или редактором).
Альтернативы
Speech to Text Converter Online
Бесплатный онлайн-инструмент, который преобразует аудио- и видеофайлы в точные текстовые транскрипции на более чем 45 языках. Поддерживает множество форматов файлов и не требует загрузок или регистрации.
Dictato
Dictato — офлайн диктовка речи в текст для macOS без облака и тайм-аута: расшифровка на устройстве и вставка в любое приложение.
Memo AI
Служба транскрипции на основе ИИ, которая преобразует аудио и видеофайлы в текст.
Sanota
Sanota превращает ваш голос в четкий и красивый текст — чтобы легко сохранять воспоминания и идеи. Начните бесплатно.
OpenAI Realtime API
Создавайте голосовые и realtime-аудио-сценарии с низкой задержкой с OpenAI Realtime API: браузерные voice agents и realtime-транскрипция.
Pewbeam
Pewbeam слушает вашу проповедь и в реальном времени находит библейские стихи, выводя их на экран без ввода и задержек для пасторов и команд проекций.