open-typeless

open-typeless — приложение для macOS push-to-talk: потоковая распознавалка речи от Volcano Engine, вставка текста в текущую позицию курсора.

AI Распознавание речи

Транскрибация

Речь в текст

Посетить Сайт

Что такое open-typeless?

open-typeless — это настольное приложение для macOS, созданное как демонстрация фреймворка Trellis. Оно обеспечивает push-to-talk рабочий процесс: записывает речь с микрофона, выполняет потоковое распознавание речи в текст с помощью сервиса ASR от Volcano Engine и вставляет распознанный текст в текущий фокусированный курсор.

Проект предназначен для пользователей, которые хотят диктовать в любое приложение без переключения окон. Также включает плавающую наложение в стиле glassmorphism, показывающее состояние прослушивания и живую транскрипцию при удержании горячей клавиши.

Ключевые возможности

Push-to-Talk горячая клавиша (удержание): Удерживайте клавишу правый Option, чтобы начать запись; отпустите, чтобы завершить запись и автоматически вставить текст.
Потоковая транскрипция в реальном времени: Использует Volcano Engine ASR и передаёт промежуточные результаты, обновляя наложение по мере распознавания.
Плавающее наложение для статуса и транскрипта: Показывает состояние «Прослушивание…» и распознанный текст с эффектом матового стекла.
Вставка в курсор без переключения окон: Автоматически вставляет распознанный текст в текущую позицию курсора, чтобы вы могли продолжить ввод в используемом приложении.
Не крадёт фокус: Плавающее окно спроектировано так, чтобы не прерывать рабочий процесс пользователя в текущем приложении.

Как использовать open-typeless

Установите зависимости: выполните pnpm install.
Настройте переменные окружения: скопируйте .env.example в .env и заполните учётные данные Volcano Engine.
- VOLCENGINE_APP_ID
- VOLCENGINE_ACCESS_TOKEN
- VOLCENGINE_RESOURCE_ID (примеры в репозитории: volc.bigasr.sauc для модели 1.0 или volc.seedasr.sauc для модели 2.0, рекомендована)
Запустите приложение: выполните pnpm start.
Разрешите разрешения macOS при первом запуске:
- Разрешение на микрофон (для записи)
- Разрешение Accessibility (Вспомогательные функции) (для глобальной горячей клавиши и вставки текста) После предоставления разрешений оставьте приложение работать в фоне.
Диктуйте: В любом приложении с полем ввода нажмите и удерживайте правый Option, говорите, затем отпустите. Приложение вставит распознанный текст в курсор.

Сценарии использования

Диктовка сообщений в любом редакторе: Удерживайте правый Option, чтобы диктовать в чат, редактор email или поле документа; распознанный текст появится в курсоре без ручного вставления.
Заполнение форм с обратной связью в реальном времени: Используйте плавающее наложение, чтобы отслеживать распознавание во время речи, затем отпустите, чтобы зафиксировать текст.
Быстрые заметки между приложениями: Быстро запускайте и останавливайте речь удержанием клавиши, сохраняя фокус на активном окне.
Устранение неисправностей с горячей клавишей/вставкой текста: Если горячая клавиша не срабатывает или текст не вставляется, проверьте, что разрешение Accessibility включено для приложения и курсор находится в поле ввода.

Часто задаваемые вопросы

Почему горячая клавиша не работает? Убедитесь, что у приложения есть разрешение Accessibility (Вспомогательные функции) в Системные настройки → Конфиденциальность и безопасность → Accessibility, и оно добавлено в список разрешённых приложений.
Почему приложение не вставляет текст? Целевое приложение должно поддерживать ввод текста, а курсор — находиться в поле ввода. Также проверьте, что разрешение Accessibility правильно предоставлено.
Есть ли задержка при запуске распознавания речи? Первое подключение к сервису Volcano Engine устанавливает WebSocket-соединение и может занять 1–2 секунды; последующие использования могут быть быстрее.
Можно ли изменить горячую клавишу? В репозитории указано, что горячая клавиша сейчас фиксирована на правый Option, а для настройки нужно изменить src/main/services/keyboard/keyboard.service.ts (конкретно triggerKey).

Альтернативы

Встроенная диктовка macOS / голосовой ввод: Полезно, если предпочитаете системное распознавание речи без настройки учётных данных внешнего ASR-провайдера. Рабочий процесс отличается, так как интеграция и вставка обрабатываются macOS.
Общие инструменты speech-to-text с ручным копи-пастом: Адаптеры, предоставляющие транскрипцию, но обычно требующие вставки результатов в целевое приложение вручную, в отличие от подхода этого проекта с вставкой в курсор.
Приложения для расширения текста и диктовки по горячей клавише: Инструменты для вставки текста через сочетания; некоторые фокусируются на редактировании макросов или конвейерах транскрипции, а не на потоковом ASR с матовым наложением и push-to-talk.
Другие интеграции speech-to-text для разработчиков: Если строите свой рабочий процесс, можно использовать ASR API и глобальные горячие клавиши/буфер обмена или API доступности; это отличается необходимостью большей реализации вместо готового приложения.

Альтернативы

Speech to Text Converter Online

Бесплатный онлайн-инструмент, который преобразует аудио- и видеофайлы в точные текстовые транскрипции на более чем 45 языках. Поддерживает множество форматов файлов и не требует загрузок или регистрации.

Dictato

Dictato — офлайн диктовка речи в текст для macOS без облака и тайм-аута: расшифровка на устройстве и вставка в любое приложение.

Memo AI

Служба транскрипции на основе ИИ, которая преобразует аудио и видеофайлы в текст.

Sanota

Sanota превращает ваш голос в четкий и красивый текст — чтобы легко сохранять воспоминания и идеи. Начните бесплатно.

OpenAI Realtime API

Создавайте голосовые и realtime-аудио-сценарии с низкой задержкой с OpenAI Realtime API: браузерные voice agents и realtime-транскрипция.

Pewbeam

Pewbeam слушает вашу проповедь и в реальном времени находит библейские стихи, выводя их на экран без ввода и задержек для пасторов и команд проекций.