Gemini 3.5 Live Translateは、70以上の言語に対応するGoogleの音声モデル。通話、会議、授業、配信、Google製品の翻訳機能向けに、ほぼリアルタイムの音声翻訳を実現します。
speech-core は、VAD、ストリーミング/バッチ音声認識、話者分離、音声合成に対応した、C++17 のオンデバイス音声エージェント向けパイプラインエンジン。Linux、Windows、Android、Apple系ワークフローでクラウド推論なしにローカル音声アプリを構築できます。
Krisp Voice Translation API は、ライブ通話や音声アプリ向けのリアルタイム音声翻訳 API です。61言語の相互翻訳、背景音声キャンセル、カスタム語彙制御に対応しています。
Voxは、MacとWindows向けのオンデバイスAI音声入力アプリです。話した内容をクリップボード用の整ったテキストに変換し、アカウント不要でオフラインでも使えます。
Waveは、カーソル位置に音声をテキスト化するmacOS向けのネイティブ書き起こしアプリ。ローカルWhisperでオフラインのプライバシー重視、またはGroqで高速変換も可能。
LocalClickyは、ローカルで動作するmacOS向け音声アシスタント。音声の文字起こし、コマンドの推論、画面確認、Mac操作をクラウド送信なしで行い、ハンズフリーのオフライン操作に対応します。
Clarafyは、入力中の文章をその場で整えるブラウザ向けライティングアシスタントです。書き換え、トーン調整、音声入力に対応し、コピー不要でより自然な文に仕上げます。
Shadowは、見たもの・聞いたこと・話したことを記録し、その文脈でカスタムSkillsを実行するMacアプリです。会議メモ、返信、要約などを作成できます。
AutoSubtitlesは、インストール不要のブラウザ完結AI字幕生成・キャプション編集ツール。動画に字幕を追加、編集、書き出しでき、複数形式・多言語対応。無料で開始可能、アカウント不要。
Traceは、マイク音声とシステム音声をローカルで録音し、タイムスタンプ付きの重要箇所を含むMarkdown文字起こしを返すmacOS会議文字起こしアプリです。クラウド送信、アカウント、会議ボットなしで議事録を残したい方に最適です。
Ringg Parrot STT V1は、ヒンディー語・英語・コードミックス音声のリアルタイム/ファイル文字起こしに対応するSpeech-to-Text API。低遅延の音声製品やAIエージェント、コンタクトセンター向け。
TongueTypeは、Whisper AIで音声をローカル変換し、カーソル位置にテキストを挿入できるmacOS向け音声入力アプリです。音声・動画ファイルの文字起こしにも対応し、クラウド処理、アカウント、サブスクは不要です。
Carbon Voiceは、チーム向けの非同期音声メッセージアプリ。人とAIエージェントを一元管理し、文字起こし付き音声更新を送信、音声やテキストで返信でき、デスクトップ・モバイル・watch・ウィジェットから利用可能。
SpeakMacはMac向けオフライン音声入力アプリ。オンデバイス処理で現在のウィンドウに文字起こし。25+言語対応、買い切りでサブスク不要。
SpeakONはiPhoneの音声入力デバイス。1ボタンで話すだけで、書いているアプリに整った文章テキストを送ります。
HarkerはmacOS向け無料の音声入力アプリ。グローバルショートカットでどこでも入力し、音声をテキスト化。PremiumはAI文体や翻訳も。
xAIのGrok Speech to Text・Text to Speech APIで音声/テキスト変換。低遅延REST/WebSocket、話者分離やTTS音声タグ等に対応。
Ghost PepperはmacOS向けの音声ディクテーション&会議文字起こしアプリ。Apple Silicon上で完全ローカル処理し、クラウド送信なし。
Macで音声とスクリーンショット入力。クラウド送信やアカウントなしのオンデバイス文字起こし。1回$49のダウンロード。
Walkieはホットキーで話した内容を文字に変換し、任意のアプリへ入力。Fast Modeはクラウド、Local Modeは端末内で文字起こし。