Type4Me
Type4Me — инструмент голосового ввода для macOS с распознаванием речи в реальном времени и опциональной обработкой текста через LLM. Локально и в облаке.
Что такое Type4Me?
Type4Me — инструмент голосового ввода для macOS с распознаванием речи в текст в реальном времени и опциональной обработкой текста через LLM. Поддерживает локальные (оффлайн) и облачные движки распознавания, работает с учётными данными и историей распознавания, хранящимися локально.
Основная цель — помочь пользователям преобразовывать устную китайскую речь (и, с доступными локальными моделями, двуязычную китайско-английскую) в текст с более быстрой инференцией на устройстве при использовании локального распознавания, а также с возможностью настраиваемых рабочих процессов на основе промптов при использовании облачных моделей.
Ключевые возможности
- Локальное распознавание речи (оффлайн): Использует движок SherpaOnnx (Paraformer/Zipformer) для распознавания на устройстве без API-ключей, настройки облачного аккаунта или зависимости от сети.
- Облачное потоковое распознавание: Подключается к Volcengine (豆包) streaming ASR для генерации текста во время речи, с режимом производительности, использующим двухканальное распознавание с последующей оптимизацией по полной записи.
- Несколько режимов обработки (включая кастомные промпты): Встроенные режимы для быстрого набора в реальном времени, производительного двухканального потока, перевода на английский, оптимизации промптов и режима команд, где речь может указывать LLM действовать с выделенным текстом и содержимым буфера обмена; пользователи могут создавать свои промпты.
- Переменные контекста в промптах: Шаблоны промптов поддерживают переменные вроде {text} (распознанная речь), {selected} (выделенный текст на момент начала записи) и {clipboard} (содержимое буфера обмена на момент начала записи), что позволяет создавать рабочие процессы «голос становится командой».
- Локальное хранение данных: Учётные данные сохраняются локально в
~/Library/Application Support/Type4Me/credentials.json(права 0600), история распознавания — в локальной SQLite-базе, поддерживается экспорт истории в CSV по диапазону дат. - Управление словарём для ASR: Добавление горячих слов (например, имён собственный) для повышения точности распознавания и поддержка замены фраз (например, произнесение метки email с подстановкой реального адреса).
Как использовать Type4Me
- Установка на macOS 14+: Скачайте DMG для Type4Me v1.2.0 и перетащите Type4Me.app в Applications. При первом запуске может появиться стандартное предупреждение macOS о безопасности для приложений не из App Store; решите через System Settings или терминал
xattr. - Выбор движка распознавания:
- Только облачная установка: DMG поддерживает облачные движки распознавания.
- Локальное оффлайн-распознавание (опционально): При сборке из исходников можно включить локальный движок Paraformer и скачать файлы моделей ASR в
~/Library/Application Support/Type4Me/Models/.
- Настройка движков и ключей для облака: Следуйте инструкциям репозитория в мастере первого запуска, чтобы ввести Volcengine App Key, Access Key и Resource ID.
- Настройка режимов и горячих клавиш: В настройках выберите локальный/Paraformer или облачные движки, используйте встроенные режимы или кастомные промпты. Каждый режим можно привязать к своей глобальной горячей клавише и использовать «удерживать для речи» или «один нажатие для старт/стоп».
Сценарии использования
- Оффлайн-диктант в условиях без надёжного интернета: Используйте локальный движок Paraformer (SherpaOnnx) для транскрипции речи полностью на устройстве без API-ключей.
- Набор в реальном времени с минимальной задержкой: Используйте режим Quick для вставки распознавания сразу по готовности результата.
- Двуязычные рабочие процессы: С двуязычной локальной моделью диктуйте китайскую речь и выводите перевод на английский в режиме English Translation.
- Голосовые команды для работы с видимым контентом: Выделите текст в редакторе, нажмите привязанную клавишу, произнесите команду (например, «translate the selected text»), и промпт получит контекст
{selected}и{clipboard}. - Повышение точности с доменной лексикой: Добавьте названия организаций, продуктов или термины как горячие слова ASR, используйте замену фраз для повторяющихся чувствительных форматов вроде email-адресов.
Часто задаваемые вопросы
-
Почему macOS предупреждает при первом запуске? macOS показывает предупреждение о безопасности при открытии приложений не из App Store. Репозиторий предлагает два способа разрешения запуска (рекомендуется System Settings или терминал
xattr -d com.apple.quarantine). -
Нужен ли API-ключ для локального распознавания? Нет. При использовании локального движка на базе SherpaOnnx распознавание работает на устройстве без API-ключей или облачных аккаунтов.
-
Где хранятся учетные данные и история распознавания? Учетные данные сохраняются локально в
~/Library/Application Support/Type4Me/credentials.jsonс правами 0600. История распознавания хранится в локальной базе SQLite и может быть экспортирована в CSV по диапазону дат. -
Можно ли настроить обработку распознанного текста? Да. Type4Me включает встроенные режимы и поддерживает пользовательские шаблоны промптов. Переменные промпта:
{text},{selected}и{clipboard}. -
Доступно ли локальное распознавание в готовом DMG? Репозиторий указывает, что загрузка DMG поддерживает облачные движки распознавания. Локальное оффлайн-распознавание требует сборки из исходников и загрузки соответствующих файлов моделей SherpaOnnx.
Альтернативы
- Встроенная диктовка macOS: Удобный нативный вариант для речи-в-текст, обычно ограниченный в интеграции с LLM-обработкой по промптам и выборе оффлайн-движков.
- Локальные/оффлайн-инструменты речи-в-текст (приложения ASR или CLI): Могут работать без сети, как локальный режим Type4Me, но могут не предлагать такие же режимы на основе промптов и рабочий процесс с горячими клавишами/буфером обмена.
- Облачные платформы транскрипции с API: Полезны для управляемой точности облачных моделей, но требуют сети и обычно управления аккаунтом/API-ключами, в отличие от локальной ориентации Type4Me.
- Продукты голосового набора в браузере/настольные: Фокусируются на прямой диктовке в приложениях; отличительная особенность Type4Me — комбинация распознавания с настраиваемыми режимами промптов и локальным хранением/экспортом истории.
Альтернативы
Tactiq
Tactiq - это AI-ассистент для встреч, который предоставляет живую транскрипцию, AI-резюме, элементы действий и пользовательские AI-подсказки для Google Meet, Zoom и Teams.
Tavus
Tavus создает AI для живого общения лицом к лицу: видит, слышит и отвечает в реальном времени. Доступны видео-агенты и цифровые двойники через API.
AakarDev AI
AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.
Sanota
Sanota превращает ваш голос в четкий и красивый текст — чтобы легко сохранять воспоминания и идеи. Начните бесплатно.
BookAI.chat
BookAI позволяет вам общаться с вашими книгами, просто предоставив название и автора.
skills-janitor
skills-janitor для Claude Code: аудит и учет навыков, сравнение с девятью командами /janitor-* и поиск дублей без зависимостей.