speech-core は、VAD、ストリーミング/バッチ音声認識、話者分離、音声合成に対応した、C++17 のオンデバイス音声エージェント向けパイプラインエンジン。Linux、Windows、Android、Apple系ワークフローでクラウド推論なしにローカル音声アプリを構築できます。
Voiser.aiは、テキストを音声に変換するAI音声合成・ナレーション生成ツールです。多彩な音声と言語に対応し、ナレーションやプロモーション、多言語制作に活用できます。
Podio: News Podcast Makerは、選んだ話題や関心に合わせて毎日のパーソナライズ音声ニュースを作成するAI搭載アプリ。iPhoneとiPadで、ニュースや要約、カスタム番組をハンズフリーで聴けます。
TicoはWindows向けAIアシスタント。声の質問を聞いて画面内容を理解し、クリックすべき場所を示しながら音声で手順を案内します。
Yeta AIはYouTubeの公開動画をAIボイスで10+言語にリアルタイム翻訳・吹き替え。毎月15分無料、クレカ不要で開始。
Morphは電子書籍とオーディオブックを同期して、読む・聴く・両方を同時に楽しめます。AIアシスタントで章の説明や質問も。
FlowSpeechは、スクリプトを文脈に合う感情と正確なポーズ制御で人間らしい音声へ変換。30+ボイス/70+言語に対応。
xAIのGrok Speech to Text・Text to Speech APIで音声/テキスト変換。低遅延REST/WebSocket、話者分離やTTS音声タグ等に対応。
Gemini 3.1 Flash TTSはGoogleの音声合成モデル。自然で表現豊かなAI音声を生成し、音声タグで話し方とテンポを制御。70+言語対応、SynthIDウォーターマーク。
ElevenLabs Guardrails 2.0は、ElevenAgents向けの設定可能な安全・行動制御。音声AIの回答をガイドし、危険/逸脱出力を事前にブロック。
HeyGen DevelopersのAPIでアバター動画生成・翻訳・リップシンク。TTS音声モデルも連携し、スケールする制作ワークフローに対応。
Lightning TTS v3 は低遅延・多言語の音声合成API。ボイスエージェントや制作向けの音声、ボイスクローン対応。登録で$10無料クレジット。
Voxtral TTSはMistral AIの多言語TTSモデル。自然で低遅延な音声生成と、音声エージェント向けに話者を適応するボイスモデルを提供。
Gemini 3.1 Flash Liveは、Googleのリアルタイム音声モデル。Google製品でより自然で信頼性の高い音声体験を実現(開発API/Searh Live等)。
記事リンクを貼り付けて、listen.を使うとポッドキャストアプリで音声エピソードとして再生。毎日トピック別に配信も。
Voizematicは電話のAIボイスエージェント。無制限の着信/発信、Googleカレンダー予約、25+言語での自動フォローアップを実現。
Clipchamp AI Voice Over Generatorは、オンラインのテキスト読み上げ(TTS)で字幕に使える本格的な音声ナレーションを作成。多言語・速度・感情調整対応。
MaestraはAIメディア翻訳プラットフォーム。動画・音声から文字起こし、字幕、複数言語の音声を生成し、リアルタイム翻訳にも対応。
Inworld AIのリアルタイムTTS/STT/音声-音声APIとRouter。複数LLMプロバイダを選択・フェイルオーバーし会話アプリを構築。
Flikiはテキスト・PPT・ブログ・商品URLからAI動画&ナレーションを生成。80+言語対応、AIアバターも。無料でクレカ不要。