open-typeless
open-typeless — приложение для macOS push-to-talk: потоковая распознавалка речи от Volcano Engine, вставка текста в текущую позицию курсора.
Что такое open-typeless?
open-typeless — это настольное приложение для macOS, созданное как демонстрация фреймворка Trellis. Оно обеспечивает push-to-talk рабочий процесс: записывает речь с микрофона, выполняет потоковое распознавание речи в текст с помощью сервиса ASR от Volcano Engine и вставляет распознанный текст в текущий фокусированный курсор.
Проект предназначен для пользователей, которые хотят диктовать в любое приложение без переключения окон. Также включает плавающую наложение в стиле glassmorphism, показывающее состояние прослушивания и живую транскрипцию при удержании горячей клавиши.
Ключевые возможности
- Push-to-Talk горячая клавиша (удержание): Удерживайте клавишу правый Option, чтобы начать запись; отпустите, чтобы завершить запись и автоматически вставить текст.
- Потоковая транскрипция в реальном времени: Использует Volcano Engine ASR и передаёт промежуточные результаты, обновляя наложение по мере распознавания.
- Плавающее наложение для статуса и транскрипта: Показывает состояние «Прослушивание…» и распознанный текст с эффектом матового стекла.
- Вставка в курсор без переключения окон: Автоматически вставляет распознанный текст в текущую позицию курсора, чтобы вы могли продолжить ввод в используемом приложении.
- Не крадёт фокус: Плавающее окно спроектировано так, чтобы не прерывать рабочий процесс пользователя в текущем приложении.
Как использовать open-typeless
- Установите зависимости: выполните
pnpm install. - Настройте переменные окружения: скопируйте
.env.exampleв.envи заполните учётные данные Volcano Engine.VOLCENGINE_APP_IDVOLCENGINE_ACCESS_TOKENVOLCENGINE_RESOURCE_ID(примеры в репозитории:volc.bigasr.saucдля модели 1.0 илиvolc.seedasr.saucдля модели 2.0, рекомендована)
- Запустите приложение: выполните
pnpm start. - Разрешите разрешения macOS при первом запуске:
- Разрешение на микрофон (для записи)
- Разрешение Accessibility (Вспомогательные функции) (для глобальной горячей клавиши и вставки текста) После предоставления разрешений оставьте приложение работать в фоне.
- Диктуйте: В любом приложении с полем ввода нажмите и удерживайте правый Option, говорите, затем отпустите. Приложение вставит распознанный текст в курсор.
Сценарии использования
- Диктовка сообщений в любом редакторе: Удерживайте правый Option, чтобы диктовать в чат, редактор email или поле документа; распознанный текст появится в курсоре без ручного вставления.
- Заполнение форм с обратной связью в реальном времени: Используйте плавающее наложение, чтобы отслеживать распознавание во время речи, затем отпустите, чтобы зафиксировать текст.
- Быстрые заметки между приложениями: Быстро запускайте и останавливайте речь удержанием клавиши, сохраняя фокус на активном окне.
- Устранение неисправностей с горячей клавишей/вставкой текста: Если горячая клавиша не срабатывает или текст не вставляется, проверьте, что разрешение Accessibility включено для приложения и курсор находится в поле ввода.
Часто задаваемые вопросы
-
Почему горячая клавиша не работает? Убедитесь, что у приложения есть разрешение Accessibility (Вспомогательные функции) в Системные настройки → Конфиденциальность и безопасность → Accessibility, и оно добавлено в список разрешённых приложений.
-
Почему приложение не вставляет текст? Целевое приложение должно поддерживать ввод текста, а курсор — находиться в поле ввода. Также проверьте, что разрешение Accessibility правильно предоставлено.
-
Есть ли задержка при запуске распознавания речи? Первое подключение к сервису Volcano Engine устанавливает WebSocket-соединение и может занять 1–2 секунды; последующие использования могут быть быстрее.
-
Можно ли изменить горячую клавишу? В репозитории указано, что горячая клавиша сейчас фиксирована на правый Option, а для настройки нужно изменить
src/main/services/keyboard/keyboard.service.ts(конкретноtriggerKey).
Альтернативы
- Встроенная диктовка macOS / голосовой ввод: Полезно, если предпочитаете системное распознавание речи без настройки учётных данных внешнего ASR-провайдера. Рабочий процесс отличается, так как интеграция и вставка обрабатываются macOS.
- Общие инструменты speech-to-text с ручным копи-пастом: Адаптеры, предоставляющие транскрипцию, но обычно требующие вставки результатов в целевое приложение вручную, в отличие от подхода этого проекта с вставкой в курсор.
- Приложения для расширения текста и диктовки по горячей клавише: Инструменты для вставки текста через сочетания; некоторые фокусируются на редактировании макросов или конвейерах транскрипции, а не на потоковом ASR с матовым наложением и push-to-talk.
- Другие интеграции speech-to-text для разработчиков: Если строите свой рабочий процесс, можно использовать ASR API и глобальные горячие клавиши/буфер обмена или API доступности; это отличается необходимостью большей реализации вместо готового приложения.
Альтернативы
Speech to Text Converter Online
Бесплатный онлайн-инструмент, который преобразует аудио- и видеофайлы в точные текстовые транскрипции на более чем 45 языках. Поддерживает множество форматов файлов и не требует загрузок или регистрации.
Dictato
Dictato — офлайн диктовка речи в текст для macOS без облака и тайм-аута: расшифровка на устройстве и вставка в любое приложение.
Memo AI
Служба транскрипции на основе ИИ, которая преобразует аудио и видеофайлы в текст.
Sanota
Sanota превращает ваш голос в четкий и красивый текст — чтобы легко сохранять воспоминания и идеи. Начните бесплатно.
OpenAI Realtime API
Создавайте голосовые и realtime-аудио-сценарии с низкой задержкой с OpenAI Realtime API: браузерные voice agents и realtime-транскрипция.
Pewbeam
Pewbeam слушает вашу проповедь и в реальном времени находит библейские стихи, выводя их на экран без ввода и задержек для пасторов и команд проекций.