xAIのGrok Speech to Text・Text to Speech APIで音声/テキスト変換。低遅延REST/WebSocket、話者分離やTTS音声タグ等に対応。
Gemini 3.1 Flash TTSはGoogleの音声合成モデル。自然で表現豊かなAI音声を生成し、音声タグで話し方とテンポを制御。70+言語対応、SynthIDウォーターマーク。
ElevenLabs Guardrails 2.0は、ElevenAgents向けの設定可能な安全・行動制御。音声AIの回答をガイドし、危険/逸脱出力を事前にブロック。
HeyGen DevelopersのAPIでアバター動画生成・翻訳・リップシンク。TTS音声モデルも連携し、スケールする制作ワークフローに対応。
Lightning TTS v3 は低遅延・多言語の音声合成API。ボイスエージェントや制作向けの音声、ボイスクローン対応。登録で$10無料クレジット。
Voxtral TTSはMistral AIの多言語TTSモデル。自然で低遅延な音声生成と、音声エージェント向けに話者を適応するボイスモデルを提供。
Gemini 3.1 Flash Liveは、Googleのリアルタイム音声モデル。Google製品でより自然で信頼性の高い音声体験を実現(開発API/Searh Live等)。
記事リンクを貼り付けて、listen.を使うとポッドキャストアプリで音声エピソードとして再生。毎日トピック別に配信も。
Voizematicは電話のAIボイスエージェント。無制限の着信/発信、Googleカレンダー予約、25+言語での自動フォローアップを実現。
Clipchamp AI Voice Over Generatorは、オンラインのテキスト読み上げ(TTS)で字幕に使える本格的な音声ナレーションを作成。多言語・速度・感情調整対応。
MaestraはAIメディア翻訳プラットフォーム。動画・音声から文字起こし、字幕、複数言語の音声を生成し、リアルタイム翻訳にも対応。
Inworld AIのリアルタイムTTS/STT/音声-音声APIとRouter。複数LLMプロバイダを選択・フェイルオーバーし会話アプリを構築。
Flikiはテキスト・PPT・ブログ・商品URLからAI動画&ナレーションを生成。80+言語対応、AIアバターも。無料でクレカ不要。
WikiTripはiPhone向けの位置情報トラベル音声ガイド。近くのWikipedia記事をAI音声で読み上げ、移動中もハンズフリーで楽しめます。
Synthesys.ioはAIでアバター動画生成・音声ナレーション/吹き替え・多言語化、さらにマーケ用の対応画像まで作成するコンテンツスイートです。
CAMB.AIで1つのライブ配信を多言語に。リアルタイムAI音声吹替でYouTube / Twitch / Xなどへ多言語放送可能。
LOVOはAI音声生成・テキスト読み上げで100以上の言語に対応。オンライン動画編集で同期と字幕作成まで可能。
Herodot AIは、写真から聞けるAI音声ガイド&地図ナビのセルフツアーで世界中の観光を楽しめる旅行アプリです。
TADA (Text-Acoustic Dual Alignment) は Hume AI のオープンソース音声合成モデル。テキストと音声を1対1で同期し高速・安定生成を目指します。
Ondoku は、貼り付けたテキストを選択した音声で読み上げ。再生できるほか .mp3 でダウンロード可能。多言語・複数音声対応。