UStackUStack
doing icon

doing

Голосовой и скриншот-ввод для AI-разработчиков на Mac: локальная расшифровка без загрузки в облако и без аккаунта. Разовая загрузка $49.

doing

Что такое doing?

doing — это приложение для Mac для голосового ввода и расшифровки, работающее локально и с акцентом на приватность. Оно начинает слушать при удержании горячей клавиши, расшифровывает речь в реальном времени и вставляет получившийся текст в позицию активного курсора — так вы можете говорить вместо набора текста при использовании AI-инструментов и любых текстовых полей.

Основная цель — локальная расшифровка без загрузки в облако и без аккаунта. Продукт также поддерживает прикрепление скриншотов к записи и предлагает настраиваемую постобработку («Skills») перед вставкой расшифровки.

Ключевые возможности

  • Расшифровка по удержанию горячей клавиши: Начните прослушивание, удерживая горячую клавишу, говорите, пока текст расшифровывается в реальном времени; отпустите, чтобы вставить у курсора.
  • Локальная и приватная обработка аудио: Разработано так, что ваш голос не покидает Mac — без облачной расшифровки, без аккаунта и без загрузки аудио.
  • Захват скриншотов, прикреплённый к расшифровке: При удержании горячей клавиши перетащите прямоугольник на экране, чтобы захватить скриншоты, связанные с той же сессией расшифровки.
  • Вставка на системном уровне в активный курсор: Работает везде, где можно печатать (браузер, редактор, терминал и т. д.), вставляя в текущую позицию курсора.
  • YOLO Mode для быстрой передачи в AI-промпты: При активации doing нажимает Return после вставки расшифровки, чтобы запустить промпт без лишних шагов.
  • Skills для постобработки расшифровки: Определите действия, которые обрабатывают расшифровку перед вставкой (примеры: формализация, суммирование, преобразование в кодовый промпт или замена текста на эмодзи), с поведением «app-aware» в зависимости от места вставки.
  • Варианты движков с бенчмарками: Поставляется с локальным движком (Parakeet) и поддерживает свои API-ключи для облачных движков; включает инструмент бенчмаркинга для тестирования провайдеров на одном аудио.
  • Даккинг аудио во время записи: Автоматически приглушает музыку/аудио при старте записи и восстанавливает после остановки.

Как использовать doing

  1. Скачайте и установите на Mac (macOS 14+ на Apple Silicon).
  2. В текстовом поле удерживайте настроенную горячую клавишу (показана как fn Talk), чтобы начать прослушивание.
  3. Говорите, пока расшифровка обновляется в реальном времени.
  4. Отпустите горячую клавишу, чтобы вставить расшифровку в позицию курсора.
  5. Опционально захватывайте скриншоты, перетаскивая прямоугольник во время записи, и/или включите YOLO Mode, чтобы doing нажал Return после вставки.
  6. Для другого поведения расшифровки настройте Skills и (при необходимости) выберите движок — встроенный локальный или облачные через свой API-ключ.

Сценарии использования

  • Общайтесь с AI-ассистентом для кода из редактора: Используйте голосовую расшифровку и вставку на системном уровне, чтобы текст попал прямо в поле ввода, затем нажмите Return (с YOLO Mode), чтобы отправить.
  • Готовьте структурированные сообщения для разных приложений: Используйте Skills с учётом приложения для переписывания или форматирования расшифровки (например, формализация для email или суммирование в пункты для инструментов продуктивности).
  • Описывайте баги с визуальным контекстом: Во время записи голоса захватывайте один или несколько скриншотов, чтобы визуальные детали прикрепились к сессии расшифровки.
  • Генерируйте кодовые промпты из устного описания: Используйте Skill для кодовых промптов, чтобы преобразовать устное описание в техническую инструкцию для ассистента кода.
  • Проводите тесты расшифровки бок о бок: Используйте встроенный инструмент бенчмаркинга, чтобы сравнить локальный движок с другими на одном аудио и выбрать по скорости/стоимости.

FAQ

  • Загружает ли doing моё аудио в облако? Страница указывает, что doing расшифровывает локально без загрузки аудио и без облачной расшифровки.

  • Нужен ли аккаунт для doing? Аккаунт не требуется, согласно странице.

  • Что такое YOLO Mode и как оно меняет рабочий процесс? YOLO Mode вставляет расшифровку и автоматически нажимает Return, чтобы AI-промпт запустился сразу.

  • Может ли doing работать со скриншотами и голосом вместе? Да. При удержании горячей клавиши перетащите прямоугольник, чтобы захватить скриншоты, которые автоматически прикрепятся к расшифровке.

  • Можно ли выбрать разные движки расшифровки? Страница указывает, что doing поставляется с локальным движком (Parakeet) и поддерживает свои API-ключи для облачных; также есть инструмент бенчмаркинга для теста на одном аудио.

Альтернативы

  • Встроенная в macOS локальная голосовая печать (системная диктовка): Обеспечивает преобразование речи в текст для общего набора, но не предлагает такой же рабочий процесс транскрипции по горячим клавишам к курсору, прикрепление скриншотов или постобработку «Навыки», как в doing.
  • Облачные сервисы/API транскрипции: Обычно требуют загрузки аудио и могут включать аккаунты или оплату за использование; doing позиционируется как локальный/без-загрузки-аудио с опциональными своими-ключами движками.
  • Другие AI-инструменты голосового ввода с подпиской: Страница сравнивает разовую цену doing $49 с другими инструментами, которые берут $8–15 в месяц; альтернативы могут отличаться моделью приватности (облако vs локально) и recurring-стоимостью.
  • Расширения для горячих клавиш голосового ввода в браузере/редакторе: Могут сократить набор в конкретных приложениях, но doing представлен как системный, работает везде, где можно печатать (не ограничен одним сайтом или редактором).

Альтернативы

Speech to Text Converter Online icon

Speech to Text Converter Online

Бесплатный онлайн-инструмент, который преобразует аудио- и видеофайлы в точные текстовые транскрипции на более чем 45 языках. Поддерживает множество форматов файлов и не требует загрузок или регистрации.

Dictato icon

Dictato

Dictato — офлайн диктовка речи в текст для macOS без облака и тайм-аута: расшифровка на устройстве и вставка в любое приложение.

Memo AI icon

Memo AI

Служба транскрипции на основе ИИ, которая преобразует аудио и видеофайлы в текст.

Sanota icon

Sanota

Sanota превращает ваш голос в четкий и красивый текст — чтобы легко сохранять воспоминания и идеи. Начните бесплатно.

OpenAI Realtime API icon

OpenAI Realtime API

Создавайте голосовые и realtime-аудио-сценарии с низкой задержкой с OpenAI Realtime API: браузерные voice agents и realtime-транскрипция.

Pewbeam icon

Pewbeam

Pewbeam слушает вашу проповедь и в реальном времени находит библейские стихи, выводя их на экран без ввода и задержек для пасторов и команд проекций.

doing | UStack