doingとは?
doingは、ローカルで動作しプライバシーを重視した設計のMacアプリで、音声入力と文字起こしを可能にします。ホットキーを押している間だけ聞き取り、音声をリアルタイムで文字起こしし、結果のテキストをアクティブなカーソル位置に貼り付けます。これでAIツールやテキストフィールドを使いながら、タイピングの代わりに話せます。
主な目的はクラウド送信なし・アカウント不要のオンデバイス文字起こしです。製品は録音にスクリーンショットを添付する機能もサポートし、文字起こし貼り付け前に設定可能な後処理(「Skills」)を提供します。
主な機能
- ホットキー長押しで音声文字起こし: ホットキーを押して聞き始め、リアルタイムで文字起こしされながら話します。離すとカーソル位置に貼り付け。
- ローカル&プライベートな音声処理: 音声がMacから出ない設計。クラウド文字起こし・アカウント・音声アップロードなし。
- 文字起こしに紐づくスクリーンショットキャプチャ: ホットキー長押し中、画面上の任意の場所で矩形をドラッグしてスクリーンショットをキャプチャし、同じ文字起こしセッションにリンク。
- システムレベルでのアクティブカーソル貼り付け: ブラウザ、エディタ、ターミナルなどタイピング可能な場所すべてで、現在のカーソル位置に貼り付け。
- AIプロンプトへの高速ハンドオフ用YOLO Mode: 有効化すると、文字起こし貼り付け後にReturnを押して追加ステップなしでプロンプト実行。
- 文字起こし後処理用のSkills: 貼り付け前に文字起こしを処理するアクションを定義(例: フォーマル化、要約、コードプロンプト変換、テキストを絵文字置換)。貼り付け先アプリに応じた「アプリ認識」動作。
- ベンチマーク付きエンジン選択: オンデバイスエンジン(Parakeet)同梱。他のクラウドエンジンにはBYO APIキー使用可能。同一音声でプロバイダをテストするベンチマークツール付き。
- 録音中のオーディオダッキング: 録音開始時に音楽/音声を自動フェードアウト、停止後に復元。
doingの使い方
- Macにダウンロード・インストール (Apple SiliconのmacOS 14+対応)。
- テキストフィールドで設定ホットキー (fn Talk表示)を長押しして聞き始め。
- リアルタイムで文字起こし更新されながら話す。
- ホットキーを離してカーソル位置に文字起こしを貼り付け。
- オプションで録音中に矩形ドラッグでスクリーンショットキャプチャ、またはYOLO Mode有効化で貼り付け後にReturn自動押下。
- 文字起こし動作を変更したい場合、Skillsを設定し(該当する場合)文字起こしエンジンを選択—ビルトインのオンデバイスまたはAPIキー経由のクラウドエンジン。
ユースケース
- エディタからAIコーディングアシスタントに話しかけ: 音声文字起こしとシステム貼り付けで作業中の入力ボックスに直接配置。YOLO ModeでReturn押して送信。
- アプリごとの構造化メッセージ準備: アプリ認識Skillsでメール(フォーマル化)や生産性ツール(箇点要約)向けに文字起こしを書き換え・整形。
- ビジュアル付きバグ記述: 音声録音中に1つ以上のスクリーンショットをキャプチャし、ビジュアル詳細を文字起こしセッションに添付。
- 話し言葉からコード指向プロンプト生成: コードプロンプトSkillsで話し記述をコーディングアシスタント向け技術指示に変換。
- 並行文字起こしテスト実行: ビルトインベンチマークツールで同一音声サンプルを使いオンデバイスエンジンと他エンジンを比較。速度/コストで選択。
FAQ
-
doingは音声をクラウドにアップロードしますか? ページによると、doingはローカル文字起こしで音声アップロードなし、クラウド文字起こしなし。
-
doingを使うのにアカウントは必要ですか? ページによるとアカウント不要。
-
YOLO Modeとは何で、ワークフローをどう変えますか? YOLO Modeは文字起こし貼り付け後にReturnを自動押下し、AIプロンプトを即実行。
-
doingはスクリーンショットと音声を一緒に使えますか? はい。ホットキー長押し中、矩形ドラッグでキャプチャしたスクリーンショットが自動で文字起こしに添付。
-
異なる文字起こしエンジンを選べますか? ページによると、ローカルエンジン(Parakeet)同梱。クラウドエンジンはBYO APIキー使用可能。同一音声でエンジンテストのベンチマークツール付き。
代替案
- macOSに組み込まれたオンデバイス音声入力(システム音声入力):一般的なタイピングのための音声認識を提供しますが、doingで説明されているホットキー駆動の文字起こし-to-カーソルワークフロー、スクリーンショット添付、またはポスト処理「Skills」は提供しません。
- クラウド文字起こしサービス/API:通常オーディオのアップロードを必要とし、アカウントや従量課金プロバイダー費用が発生する可能性があります。doingの位置づけはローカル/オーディオ非アップロードとオプションのBYOKエンジンです。
- サブスクリプション課金の他のAI音声入力ツール:ページではdoingの1回$49料金を、月$8–15課金の他のツールと比較しています。代替案はプライバシーモデル(クラウド対ローカル)と継続費用で異なる可能性があります。
- ブラウザ/エディターのホットキー音声入力拡張:特定のアプリ内でのタイピングを減らせますが、doingはシステムレベルでどこでもタイピング可能な場所で動作します(単一サイトやエディターに限定されません)。
代替品
Speech to Text Converter Online
オーディオおよびビデオファイルを45以上の言語で正確なテキストトランスクリプトに変換する無料のオンラインツールです。多数のファイル形式をサポートしており、ダウンロードやサインアップは不要です。
Dictato
DictatoはmacOSのオフライン音声入力アプリ。Whisper/Parakeet/Appleエンジンに対応し、クラウドなしでその場で文字起こし。
Memo AI
音声およびビデオファイルをテキストに変換するAI駆動の転写サービス。
Sanota
Sanotaは音声を明快で美しい文章に変換。思い出やアイデアを気軽に書き起こして、無料で始められます。
OpenAI Realtime API
OpenAI Realtime APIで低遅延なマルチモーダル音声・リアルタイム体験を構築。ブラウザ音声エージェントやリアルタイム文字起こしにも対応。
Pewbeam
Pewbeamは説教をリアルタイムで聞き取り、聖書箇所を瞬時に検出して画面表示。入力や操作なしで投影をサポート。