UStackUStack
open-typeless icon

open-typeless

open-typeless — приложение для macOS push-to-talk: потоковая распознавалка речи от Volcano Engine, вставка текста в текущую позицию курсора.

open-typeless

Что такое open-typeless?

open-typeless — это настольное приложение для macOS, созданное как демонстрация фреймворка Trellis. Оно обеспечивает push-to-talk рабочий процесс: записывает речь с микрофона, выполняет потоковое распознавание речи в текст с помощью сервиса ASR от Volcano Engine и вставляет распознанный текст в текущий фокусированный курсор.

Проект предназначен для пользователей, которые хотят диктовать в любое приложение без переключения окон. Также включает плавающую наложение в стиле glassmorphism, показывающее состояние прослушивания и живую транскрипцию при удержании горячей клавиши.

Ключевые возможности

  • Push-to-Talk горячая клавиша (удержание): Удерживайте клавишу правый Option, чтобы начать запись; отпустите, чтобы завершить запись и автоматически вставить текст.
  • Потоковая транскрипция в реальном времени: Использует Volcano Engine ASR и передаёт промежуточные результаты, обновляя наложение по мере распознавания.
  • Плавающее наложение для статуса и транскрипта: Показывает состояние «Прослушивание…» и распознанный текст с эффектом матового стекла.
  • Вставка в курсор без переключения окон: Автоматически вставляет распознанный текст в текущую позицию курсора, чтобы вы могли продолжить ввод в используемом приложении.
  • Не крадёт фокус: Плавающее окно спроектировано так, чтобы не прерывать рабочий процесс пользователя в текущем приложении.

Как использовать open-typeless

  1. Установите зависимости: выполните pnpm install.
  2. Настройте переменные окружения: скопируйте .env.example в .env и заполните учётные данные Volcano Engine.
    • VOLCENGINE_APP_ID
    • VOLCENGINE_ACCESS_TOKEN
    • VOLCENGINE_RESOURCE_ID (примеры в репозитории: volc.bigasr.sauc для модели 1.0 или volc.seedasr.sauc для модели 2.0, рекомендована)
  3. Запустите приложение: выполните pnpm start.
  4. Разрешите разрешения macOS при первом запуске:
    • Разрешение на микрофон (для записи)
    • Разрешение Accessibility (Вспомогательные функции) (для глобальной горячей клавиши и вставки текста) После предоставления разрешений оставьте приложение работать в фоне.
  5. Диктуйте: В любом приложении с полем ввода нажмите и удерживайте правый Option, говорите, затем отпустите. Приложение вставит распознанный текст в курсор.

Сценарии использования

  • Диктовка сообщений в любом редакторе: Удерживайте правый Option, чтобы диктовать в чат, редактор email или поле документа; распознанный текст появится в курсоре без ручного вставления.
  • Заполнение форм с обратной связью в реальном времени: Используйте плавающее наложение, чтобы отслеживать распознавание во время речи, затем отпустите, чтобы зафиксировать текст.
  • Быстрые заметки между приложениями: Быстро запускайте и останавливайте речь удержанием клавиши, сохраняя фокус на активном окне.
  • Устранение неисправностей с горячей клавишей/вставкой текста: Если горячая клавиша не срабатывает или текст не вставляется, проверьте, что разрешение Accessibility включено для приложения и курсор находится в поле ввода.

Часто задаваемые вопросы

  • Почему горячая клавиша не работает? Убедитесь, что у приложения есть разрешение Accessibility (Вспомогательные функции) в Системные настройки → Конфиденциальность и безопасность → Accessibility, и оно добавлено в список разрешённых приложений.

  • Почему приложение не вставляет текст? Целевое приложение должно поддерживать ввод текста, а курсор — находиться в поле ввода. Также проверьте, что разрешение Accessibility правильно предоставлено.

  • Есть ли задержка при запуске распознавания речи? Первое подключение к сервису Volcano Engine устанавливает WebSocket-соединение и может занять 1–2 секунды; последующие использования могут быть быстрее.

  • Можно ли изменить горячую клавишу? В репозитории указано, что горячая клавиша сейчас фиксирована на правый Option, а для настройки нужно изменить src/main/services/keyboard/keyboard.service.ts (конкретно triggerKey).

Альтернативы

  • Встроенная диктовка macOS / голосовой ввод: Полезно, если предпочитаете системное распознавание речи без настройки учётных данных внешнего ASR-провайдера. Рабочий процесс отличается, так как интеграция и вставка обрабатываются macOS.
  • Общие инструменты speech-to-text с ручным копи-пастом: Адаптеры, предоставляющие транскрипцию, но обычно требующие вставки результатов в целевое приложение вручную, в отличие от подхода этого проекта с вставкой в курсор.
  • Приложения для расширения текста и диктовки по горячей клавише: Инструменты для вставки текста через сочетания; некоторые фокусируются на редактировании макросов или конвейерах транскрипции, а не на потоковом ASR с матовым наложением и push-to-talk.
  • Другие интеграции speech-to-text для разработчиков: Если строите свой рабочий процесс, можно использовать ASR API и глобальные горячие клавиши/буфер обмена или API доступности; это отличается необходимостью большей реализации вместо готового приложения.

Альтернативы

Speech to Text Converter Online icon

Speech to Text Converter Online

Бесплатный онлайн-инструмент, который преобразует аудио- и видеофайлы в точные текстовые транскрипции на более чем 45 языках. Поддерживает множество форматов файлов и не требует загрузок или регистрации.

Dictato icon

Dictato

Dictato — офлайн диктовка речи в текст для macOS без облака и тайм-аута: расшифровка на устройстве и вставка в любое приложение.

Memo AI icon

Memo AI

Служба транскрипции на основе ИИ, которая преобразует аудио и видеофайлы в текст.

Sanota icon

Sanota

Sanota превращает ваш голос в четкий и красивый текст — чтобы легко сохранять воспоминания и идеи. Начните бесплатно.

OpenAI Realtime API icon

OpenAI Realtime API

Создавайте голосовые и realtime-аудио-сценарии с низкой задержкой с OpenAI Realtime API: браузерные voice agents и realtime-транскрипция.

Pewbeam icon

Pewbeam

Pewbeam слушает вашу проповедь и в реальном времени находит библейские стихи, выводя их на экран без ввода и задержек для пасторов и команд проекций.

open-typeless | UStack