UStackUStack
Type4Me icon

Type4Me

Type4Me — инструмент голосового ввода для macOS с распознаванием речи в реальном времени и опциональной обработкой текста через LLM. Локально и в облаке.

Type4Me

Что такое Type4Me?

Type4Me — инструмент голосового ввода для macOS с распознаванием речи в текст в реальном времени и опциональной обработкой текста через LLM. Поддерживает локальные (оффлайн) и облачные движки распознавания, работает с учётными данными и историей распознавания, хранящимися локально.

Основная цель — помочь пользователям преобразовывать устную китайскую речь (и, с доступными локальными моделями, двуязычную китайско-английскую) в текст с более быстрой инференцией на устройстве при использовании локального распознавания, а также с возможностью настраиваемых рабочих процессов на основе промптов при использовании облачных моделей.

Ключевые возможности

  • Локальное распознавание речи (оффлайн): Использует движок SherpaOnnx (Paraformer/Zipformer) для распознавания на устройстве без API-ключей, настройки облачного аккаунта или зависимости от сети.
  • Облачное потоковое распознавание: Подключается к Volcengine (豆包) streaming ASR для генерации текста во время речи, с режимом производительности, использующим двухканальное распознавание с последующей оптимизацией по полной записи.
  • Несколько режимов обработки (включая кастомные промпты): Встроенные режимы для быстрого набора в реальном времени, производительного двухканального потока, перевода на английский, оптимизации промптов и режима команд, где речь может указывать LLM действовать с выделенным текстом и содержимым буфера обмена; пользователи могут создавать свои промпты.
  • Переменные контекста в промптах: Шаблоны промптов поддерживают переменные вроде {text} (распознанная речь), {selected} (выделенный текст на момент начала записи) и {clipboard} (содержимое буфера обмена на момент начала записи), что позволяет создавать рабочие процессы «голос становится командой».
  • Локальное хранение данных: Учётные данные сохраняются локально в ~/Library/Application Support/Type4Me/credentials.json (права 0600), история распознавания — в локальной SQLite-базе, поддерживается экспорт истории в CSV по диапазону дат.
  • Управление словарём для ASR: Добавление горячих слов (например, имён собственный) для повышения точности распознавания и поддержка замены фраз (например, произнесение метки email с подстановкой реального адреса).

Как использовать Type4Me

  1. Установка на macOS 14+: Скачайте DMG для Type4Me v1.2.0 и перетащите Type4Me.app в Applications. При первом запуске может появиться стандартное предупреждение macOS о безопасности для приложений не из App Store; решите через System Settings или терминал xattr.
  2. Выбор движка распознавания:
    • Только облачная установка: DMG поддерживает облачные движки распознавания.
    • Локальное оффлайн-распознавание (опционально): При сборке из исходников можно включить локальный движок Paraformer и скачать файлы моделей ASR в ~/Library/Application Support/Type4Me/Models/.
  3. Настройка движков и ключей для облака: Следуйте инструкциям репозитория в мастере первого запуска, чтобы ввести Volcengine App Key, Access Key и Resource ID.
  4. Настройка режимов и горячих клавиш: В настройках выберите локальный/Paraformer или облачные движки, используйте встроенные режимы или кастомные промпты. Каждый режим можно привязать к своей глобальной горячей клавише и использовать «удерживать для речи» или «один нажатие для старт/стоп».

Сценарии использования

  • Оффлайн-диктант в условиях без надёжного интернета: Используйте локальный движок Paraformer (SherpaOnnx) для транскрипции речи полностью на устройстве без API-ключей.
  • Набор в реальном времени с минимальной задержкой: Используйте режим Quick для вставки распознавания сразу по готовности результата.
  • Двуязычные рабочие процессы: С двуязычной локальной моделью диктуйте китайскую речь и выводите перевод на английский в режиме English Translation.
  • Голосовые команды для работы с видимым контентом: Выделите текст в редакторе, нажмите привязанную клавишу, произнесите команду (например, «translate the selected text»), и промпт получит контекст {selected} и {clipboard}.
  • Повышение точности с доменной лексикой: Добавьте названия организаций, продуктов или термины как горячие слова ASR, используйте замену фраз для повторяющихся чувствительных форматов вроде email-адресов.

Часто задаваемые вопросы

  • Почему macOS предупреждает при первом запуске? macOS показывает предупреждение о безопасности при открытии приложений не из App Store. Репозиторий предлагает два способа разрешения запуска (рекомендуется System Settings или терминал xattr -d com.apple.quarantine).

  • Нужен ли API-ключ для локального распознавания? Нет. При использовании локального движка на базе SherpaOnnx распознавание работает на устройстве без API-ключей или облачных аккаунтов.

  • Где хранятся учетные данные и история распознавания? Учетные данные сохраняются локально в ~/Library/Application Support/Type4Me/credentials.json с правами 0600. История распознавания хранится в локальной базе SQLite и может быть экспортирована в CSV по диапазону дат.

  • Можно ли настроить обработку распознанного текста? Да. Type4Me включает встроенные режимы и поддерживает пользовательские шаблоны промптов. Переменные промпта: {text}, {selected} и {clipboard}.

  • Доступно ли локальное распознавание в готовом DMG? Репозиторий указывает, что загрузка DMG поддерживает облачные движки распознавания. Локальное оффлайн-распознавание требует сборки из исходников и загрузки соответствующих файлов моделей SherpaOnnx.

Альтернативы

  • Встроенная диктовка macOS: Удобный нативный вариант для речи-в-текст, обычно ограниченный в интеграции с LLM-обработкой по промптам и выборе оффлайн-движков.
  • Локальные/оффлайн-инструменты речи-в-текст (приложения ASR или CLI): Могут работать без сети, как локальный режим Type4Me, но могут не предлагать такие же режимы на основе промптов и рабочий процесс с горячими клавишами/буфером обмена.
  • Облачные платформы транскрипции с API: Полезны для управляемой точности облачных моделей, но требуют сети и обычно управления аккаунтом/API-ключами, в отличие от локальной ориентации Type4Me.
  • Продукты голосового набора в браузере/настольные: Фокусируются на прямой диктовке в приложениях; отличительная особенность Type4Me — комбинация распознавания с настраиваемыми режимами промптов и локальным хранением/экспортом истории.
Type4Me | UStack