Type4Meとは?
Type4Meは、macOS用の音声入力ツールです。リアルタイムの音声認識とオプションのLLMベースのテキスト処理を提供します。ローカル(オフライン)およびクラウド認識エンジンをサポートし、認証情報と認識履歴をローカルに保存して動作します。
主な目的は、ユーザーが話した中国語(利用可能なローカルモデルでは中国語-英語のバイリンガル対応)をテキストに変換する支援です。ローカル認識時はデバイス上での高速推論を実現し、クラウドモデル時はプロンプトベースのワークフローを設定可能です。
主な機能
- ローカル音声認識(オフライン): SherpaOnnxエンジン(Paraformer/Zipformer)を使用し、APIキー、クラウドアカウント設定、ネットワーク不要でデバイス上で認識します。
- クラウドストリーミング認識: Volcengine(豆包)のストリーミングASRに接続し、話しながらテキスト生成。ダブルチャネル認識後に全体録音で最適化するパフォーマンスモードも使用可能。
- 複数処理モード(カスタムプロンプト含む): リアルタイムタイピング、パフォーマンス重視のダブルチャネルフロー、英語翻訳、プロンプト最適化、選択テキストやクリップボード内容にLLMが動作するコマンドモードなどビルトイン。独自プロンプトも記述可能。
- プロンプトコンテキスト変数: プロンプトテンプレートで**{text}(認識音声)、{selected}(録音開始時の選択テキスト)、{clipboard}**(録音開始時のクリップボード内容)などの変数をサポート。「音声がコマンドになる」ワークフローを実現。
- ローカルデータ保存: 認証情報は
~/Library/Application Support/Type4Me/credentials.json(権限0600)に保存。認識履歴はローカルSQLiteデータベースに保存。日付範囲でCSVエクスポート対応。 - ASR用語彙管理: 固有名詞などのホットワード追加で認識精度向上。メールラベル発声時に実アドレス置換などのフレーズ置換をサポート。
Type4Meの使い方
- macOS 14+へのインストール: Type4Me v1.2.0のDMGをダウンロードし、Type4Me.appをApplicationsにドラッグ。初回起動時にApp Store外アプリのmacOSセキュリティ警告が出る場合あり。システム設定またはターミナル
xattrで解決。 - 認識エンジンの選択:
- クラウドのみインストール: DMGフローでクラウド認識エンジン対応。
- ローカルオフライン認識(オプション): ソースビルド時、ローカルParaformerエンジンを有効化し、
~/Library/Application Support/Type4Me/Models/にASRモデルファイルをダウンロード。
- クラウド使用時のエンジン・キー設定: 初回ウィザードでリポジトリのセットアップガイドに従い、Volcengine App Key、Access Key、Resource IDを入力。
- モードとショートカットの設定: 設定でローカル/Paraformerまたはクラウドエンジンを選択。ビルトインモードやカスタムプロンプトを使用。各モードにグローバルショートカットを割り当て、「押しながら話す」または「1回押して開始/停止」を選択可能。
ユースケース
- 信頼できるネットワークがない環境でのオフラインディクテーション: ローカルParaformer(SherpaOnnx)エンジンでAPIキー不要のデバイス上完全認識。
- 最小遅延のリアルタイムタイピング: Quickモードで認識結果準備完了次第挿入。
- バイリンガル出力ワークフロー: バイリンガルローカルモデルで中国語発声をEnglish Translationモードで英語翻訳出力。
- 閲覧中の内容に作用する音声コマンド: エディタでテキスト選択後、ショートカット押してコマンド発声(例:「選択テキストを翻訳」)。プロンプトに
{selected}と{clipboard}コンテキストを渡す。 - ドメイン特化語彙で精度向上: 組織名、製品名、技術用語をASRホットワード追加。メールアドレスなどの繰り返し機密形式にフレーズ置換使用。
FAQ
-
初回起動時にmacOSが警告を表示するのはなぜですか? macOSはApp Store外のアプリを開く際にセキュリティ警告を表示します。リポジトリに2つの許可方法が記載されています(System Settings推奨、またはターミナルで
xattr -d com.apple.quarantine)。 -
ローカル認識にAPIキーは必要ですか? いいえ。SherpaOnnxベースのローカルエンジンを使用する場合、デバイス上で認識が実行され、APIキーやクラウドアカウントは不要です。
-
認証情報と認識履歴はどこに保存されますか? 認証情報は
~/Library/Application Support/Type4Me/credentials.jsonに0600のパーミッションでローカル保存されます。認識履歴はローカルSQLiteデータベースに保存され、日付範囲でCSVエクスポート可能です。 -
認識テキストの処理をカスタマイズできますか? はい。Type4Meにはビルトインモードがあり、カスタムプロンプトテンプレートもサポートします。プロンプト変数には
{text}、{selected}、{clipboard}が含まれます。 -
プリビルドDMGでローカル認識は利用できますか? リポジトリによると、DMGダウンロードフローはクラウド認識エンジンをサポートします。ローカルオフライン認識にはソースからのビルドと関連SherpaOnnxモデルファイルのダウンロードが必要です。
代替品
- macOS標準のDictation: 音声入力を便利に扱えるネイティブオプションですが、プロンプトベースのLLM処理やオフラインエンジン選択の統合が制限されます。
- ローカル/オフライン音声文字起こしツール(ASRアプリやCLI): Type4Meのローカルモードのようにネットワーク不要で動作しますが、同じプロンプト駆動モードやショートカット/クリップボードコンテキストのワークフローを提供しない場合があります。
- API付きクラウド文字起こしプラットフォーム: クラウドモデルの管理された精度が欲しい場合に便利ですが、ネットワークアクセスが必要で、Type4Meのローカル優先機能とは異なりアカウント/APIキー管理が必要です。
- ブラウザ/デスクトップ音声入力製品: アプリ内直接 dictationに焦点を当てています。Type4Meの特徴は認識を構成可能プロンプトモードと組み合わせ、ローカル保存/エクスポート可能な認識履歴を提供するワークフローです。
代替品
Tactiq
Tactiqは、Google Meet、Zoom、Teams向けにライブ転写、AI要約、アクションアイテム、カスタムAIプロンプトを提供するAI会議アシスタントです。
Tavus
TavusはAIがリアルタイムの対面コミュニケーションで見て・聞いて・応答。動画エージェントやデジタルツイン、AIコンパニオンをAPIで提供。
AakarDev AI
AakarDev AIは、シームレスなベクターデータベース統合を通じてAIアプリケーションの開発を簡素化し、迅速な展開とスケーラビリティを実現する強力なプラットフォームです。
Sanota
Sanotaは音声を明快で美しい文章に変換。思い出やアイデアを気軽に書き起こして、無料で始められます。
BookAI.chat
BookAIは、書名と著者を提供するだけで、AIを使って本とチャットできるサービスです。
skills-janitor
skills-janitorでClaude Codeのスキルを監査・使用状況を追跡し、9つの/コマンドと比較。重複や不備もチェック。依存なし。