Type4Me

Type4Meとは？

Type4Meは、macOS用の音声入力ツールです。リアルタイムの音声認識とオプションのLLMベースのテキスト処理を提供します。ローカル（オフライン）およびクラウド認識エンジンをサポートし、認証情報と認識履歴をローカルに保存して動作します。

主な目的は、ユーザーが話した中国語（利用可能なローカルモデルでは中国語-英語のバイリンガル対応）をテキストに変換する支援です。ローカル認識時はデバイス上での高速推論を実現し、クラウドモデル時はプロンプトベースのワークフローを設定可能です。

主な機能

ローカル音声認識（オフライン）: SherpaOnnxエンジン（Paraformer/Zipformer）を使用し、APIキー、クラウドアカウント設定、ネットワーク不要でデバイス上で認識します。
クラウドストリーミング認識: Volcengine（豆包）のストリーミングASRに接続し、話しながらテキスト生成。ダブルチャネル認識後に全体録音で最適化するパフォーマンスモードも使用可能。
複数処理モード（カスタムプロンプト含む）: リアルタイムタイピング、パフォーマンス重視のダブルチャネルフロー、英語翻訳、プロンプト最適化、選択テキストやクリップボード内容にLLMが動作するコマンドモードなどビルトイン。独自プロンプトも記述可能。
プロンプトコンテキスト変数: プロンプトテンプレートで**{text}（認識音声）、{selected}（録音開始時の選択テキスト）、{clipboard}**（録音開始時のクリップボード内容）などの変数をサポート。「音声がコマンドになる」ワークフローを実現。
ローカルデータ保存: 認証情報は~/Library/Application Support/Type4Me/credentials.json（権限0600）に保存。認識履歴はローカルSQLiteデータベースに保存。日付範囲でCSVエクスポート対応。
ASR用語彙管理: 固有名詞などのホットワード追加で認識精度向上。メールラベル発声時に実アドレス置換などのフレーズ置換をサポート。

Type4Meの使い方

macOS 14+へのインストール: Type4Me v1.2.0のDMGをダウンロードし、Type4Me.appをApplicationsにドラッグ。初回起動時にApp Store外アプリのmacOSセキュリティ警告が出る場合あり。システム設定またはターミナルxattrで解決。
認識エンジンの選択:
- クラウドのみインストール: DMGフローでクラウド認識エンジン対応。
- ローカルオフライン認識（オプション）: ソースビルド時、ローカルParaformerエンジンを有効化し、~/Library/Application Support/Type4Me/Models/にASRモデルファイルをダウンロード。
クラウド使用時のエンジン・キー設定: 初回ウィザードでリポジトリのセットアップガイドに従い、Volcengine App Key、Access Key、Resource IDを入力。
モードとショートカットの設定: 設定でローカル/Paraformerまたはクラウドエンジンを選択。ビルトインモードやカスタムプロンプトを使用。各モードにグローバルショートカットを割り当て、「押しながら話す」または「1回押して開始/停止」を選択可能。

ユースケース

信頼できるネットワークがない環境でのオフラインディクテーション: ローカルParaformer（SherpaOnnx）エンジンでAPIキー不要のデバイス上完全認識。
最小遅延のリアルタイムタイピング: Quickモードで認識結果準備完了次第挿入。
バイリンガル出力ワークフロー: バイリンガルローカルモデルで中国語発声をEnglish Translationモードで英語翻訳出力。
閲覧中の内容に作用する音声コマンド: エディタでテキスト選択後、ショートカット押してコマンド発声（例：「選択テキストを翻訳」）。プロンプトに{selected}と{clipboard}コンテキストを渡す。
ドメイン特化語彙で精度向上: 組織名、製品名、技術用語をASRホットワード追加。メールアドレスなどの繰り返し機密形式にフレーズ置換使用。

FAQ

初回起動時にmacOSが警告を表示するのはなぜですか？ macOSはApp Store外のアプリを開く際にセキュリティ警告を表示します。リポジトリに2つの許可方法が記載されています（System Settings推奨、またはターミナルでxattr -d com.apple.quarantine）。
ローカル認識にAPIキーは必要ですか？ いいえ。SherpaOnnxベースのローカルエンジンを使用する場合、デバイス上で認識が実行され、APIキーやクラウドアカウントは不要です。
認証情報と認識履歴はどこに保存されますか？ 認証情報は~/Library/Application Support/Type4Me/credentials.jsonに0600のパーミッションでローカル保存されます。認識履歴はローカルSQLiteデータベースに保存され、日付範囲でCSVエクスポート可能です。
認識テキストの処理をカスタマイズできますか？ はい。Type4Meにはビルトインモードがあり、カスタムプロンプトテンプレートもサポートします。プロンプト変数には{text}、{selected}、{clipboard}が含まれます。
プリビルドDMGでローカル認識は利用できますか？ リポジトリによると、DMGダウンロードフローはクラウド認識エンジンをサポートします。ローカルオフライン認識にはソースからのビルドと関連SherpaOnnxモデルファイルのダウンロードが必要です。

代替品

macOS標準のDictation: 音声入力を便利に扱えるネイティブオプションですが、プロンプトベースのLLM処理やオフラインエンジン選択の統合が制限されます。
ローカル/オフライン音声文字起こしツール（ASRアプリやCLI）: Type4Meのローカルモードのようにネットワーク不要で動作しますが、同じプロンプト駆動モードやショートカット/クリップボードコンテキストのワークフローを提供しない場合があります。
API付きクラウド文字起こしプラットフォーム: クラウドモデルの管理された精度が欲しい場合に便利ですが、ネットワークアクセスが必要で、Type4Meのローカル優先機能とは異なりアカウント/APIキー管理が必要です。
ブラウザ/デスクトップ音声入力製品: アプリ内直接 dictationに焦点を当てています。Type4Meの特徴は認識を構成可能プロンプトモードと組み合わせ、ローカル保存/エクスポート可能な認識履歴を提供するワークフローです。

Type4Me

Type4Meとは？

主な機能

Type4Meの使い方

ユースケース

FAQ

代替品

代替品

Tactiq

Tavus

AakarDev AI

Sanota

BookAI.chat

skills-janitor