UStackUStack
Type4Me icon

Type4Me

Type4MeはmacOSの音声入力ツール。リアルタイム文字起こしとLLMによる任意の文章処理。ローカル/クラウド認識に対応。

Type4Me

Type4Meとは?

Type4Meは、macOS用の音声入力ツールです。リアルタイムの音声認識とオプションのLLMベースのテキスト処理を提供します。ローカル(オフライン)およびクラウド認識エンジンをサポートし、認証情報と認識履歴をローカルに保存して動作します。

主な目的は、ユーザーが話した中国語(利用可能なローカルモデルでは中国語-英語のバイリンガル対応)をテキストに変換する支援です。ローカル認識時はデバイス上での高速推論を実現し、クラウドモデル時はプロンプトベースのワークフローを設定可能です。

主な機能

  • ローカル音声認識(オフライン): SherpaOnnxエンジン(Paraformer/Zipformer)を使用し、APIキー、クラウドアカウント設定、ネットワーク不要でデバイス上で認識します。
  • クラウドストリーミング認識: Volcengine(豆包)のストリーミングASRに接続し、話しながらテキスト生成。ダブルチャネル認識後に全体録音で最適化するパフォーマンスモードも使用可能。
  • 複数処理モード(カスタムプロンプト含む): リアルタイムタイピング、パフォーマンス重視のダブルチャネルフロー、英語翻訳、プロンプト最適化、選択テキストやクリップボード内容にLLMが動作するコマンドモードなどビルトイン。独自プロンプトも記述可能。
  • プロンプトコンテキスト変数: プロンプトテンプレートで**{text}(認識音声)、{selected}(録音開始時の選択テキスト)、{clipboard}**(録音開始時のクリップボード内容)などの変数をサポート。「音声がコマンドになる」ワークフローを実現。
  • ローカルデータ保存: 認証情報は~/Library/Application Support/Type4Me/credentials.json(権限0600)に保存。認識履歴はローカルSQLiteデータベースに保存。日付範囲でCSVエクスポート対応。
  • ASR用語彙管理: 固有名詞などのホットワード追加で認識精度向上。メールラベル発声時に実アドレス置換などのフレーズ置換をサポート。

Type4Meの使い方

  1. macOS 14+へのインストール: Type4Me v1.2.0のDMGをダウンロードし、Type4Me.appApplicationsにドラッグ。初回起動時にApp Store外アプリのmacOSセキュリティ警告が出る場合あり。システム設定またはターミナルxattrで解決。
  2. 認識エンジンの選択:
    • クラウドのみインストール: DMGフローでクラウド認識エンジン対応。
    • ローカルオフライン認識(オプション): ソースビルド時、ローカルParaformerエンジンを有効化し、~/Library/Application Support/Type4Me/Models/にASRモデルファイルをダウンロード。
  3. クラウド使用時のエンジン・キー設定: 初回ウィザードでリポジトリのセットアップガイドに従い、Volcengine App Key、Access Key、Resource IDを入力。
  4. モードとショートカットの設定: 設定でローカル/Paraformerまたはクラウドエンジンを選択。ビルトインモードやカスタムプロンプトを使用。各モードにグローバルショートカットを割り当て、「押しながら話す」または「1回押して開始/停止」を選択可能。

ユースケース

  • 信頼できるネットワークがない環境でのオフラインディクテーション: ローカルParaformer(SherpaOnnx)エンジンでAPIキー不要のデバイス上完全認識。
  • 最小遅延のリアルタイムタイピング: Quickモードで認識結果準備完了次第挿入。
  • バイリンガル出力ワークフロー: バイリンガルローカルモデルで中国語発声をEnglish Translationモードで英語翻訳出力。
  • 閲覧中の内容に作用する音声コマンド: エディタでテキスト選択後、ショートカット押してコマンド発声(例:「選択テキストを翻訳」)。プロンプトに{selected}{clipboard}コンテキストを渡す。
  • ドメイン特化語彙で精度向上: 組織名、製品名、技術用語をASRホットワード追加。メールアドレスなどの繰り返し機密形式にフレーズ置換使用。

FAQ

  • 初回起動時にmacOSが警告を表示するのはなぜですか? macOSはApp Store外のアプリを開く際にセキュリティ警告を表示します。リポジトリに2つの許可方法が記載されています(System Settings推奨、またはターミナルでxattr -d com.apple.quarantine)。

  • ローカル認識にAPIキーは必要ですか? いいえ。SherpaOnnxベースのローカルエンジンを使用する場合、デバイス上で認識が実行され、APIキーやクラウドアカウントは不要です。

  • 認証情報と認識履歴はどこに保存されますか? 認証情報は~/Library/Application Support/Type4Me/credentials.jsonに0600のパーミッションでローカル保存されます。認識履歴はローカルSQLiteデータベースに保存され、日付範囲でCSVエクスポート可能です。

  • 認識テキストの処理をカスタマイズできますか? はい。Type4Meにはビルトインモードがあり、カスタムプロンプトテンプレートもサポートします。プロンプト変数には{text}{selected}{clipboard}が含まれます。

  • プリビルドDMGでローカル認識は利用できますか? リポジトリによると、DMGダウンロードフローはクラウド認識エンジンをサポートします。ローカルオフライン認識にはソースからのビルドと関連SherpaOnnxモデルファイルのダウンロードが必要です。

代替品

  • macOS標準のDictation: 音声入力を便利に扱えるネイティブオプションですが、プロンプトベースのLLM処理やオフラインエンジン選択の統合が制限されます。
  • ローカル/オフライン音声文字起こしツール(ASRアプリやCLI): Type4Meのローカルモードのようにネットワーク不要で動作しますが、同じプロンプト駆動モードやショートカット/クリップボードコンテキストのワークフローを提供しない場合があります。
  • API付きクラウド文字起こしプラットフォーム: クラウドモデルの管理された精度が欲しい場合に便利ですが、ネットワークアクセスが必要で、Type4Meのローカル優先機能とは異なりアカウント/APIキー管理が必要です。
  • ブラウザ/デスクトップ音声入力製品: アプリ内直接 dictationに焦点を当てています。Type4Meの特徴は認識を構成可能プロンプトモードと組み合わせ、ローカル保存/エクスポート可能な認識履歴を提供するワークフローです。
Type4Me | UStack