AI音声合成

75 製品

PodcastorAIは、コンテンツをPodcast用スクリプト、音声エピソード、動画ポッドキャストに変換するAIポッドキャストスタジオ。トピック、文書、URL、メモ、録音から、収録環境なしで公開可能な番組を作成できます。

VocalViaは、PDF、記事、メモ、Markdown、Webソースを編集可能なポッドキャスト原稿と音声に変換するドキュメントからポッドキャストへのツールです。

SpeechifyAIは、音声生成、ボイスクローン、音声エージェント構築に対応したvoice AIプラットフォームです。TTS、多言語音声、通話ワークフローを単一APIで提供し、開発者向けに設計されています。

Alvoff Inferenceは、音声認識・音声合成・埋め込み・チャット/コード生成向けのOpenAI互換API。base URLを切り替え、使い慣れたSDKのまま従量課金で利用できます。

speech-coreは、VAD、ストリーミング/バッチSTT、話者分離、TTS、音声エージェント処理を備えたオンデバイス向けC++17ライブラリ。ローカル動作で、推論はONNX RuntimeまたはLiteRTに対応。

Voiser AI Voiceoverは、テキストを音声に変換してナレーションを作成できるTTSです。550以上の音声と言語別のスタイル制御、Webスタジオに対応します。

TicoはWindows向けのAIアシスタント。カーソルに寄り添い、画面内容を理解して音声で案内します。無料枠と有料プランで利用回数や優先サポートが異なります。

Yeta AIは、公開YouTube動画をAI音声でリアルタイム翻訳・吹き替えするブラウザツールです。字幕に頼らず、10以上の言語でチュートリアルや講義を視聴できます。

Morphは、著作権切れの古典を対象に、本文・同期朗読・AIアシスタントを一体化したWeb読書プラットフォーム。読む・聴く・両方を自然に切り替えられ、厳選ライブラリの作品別ヘルプもページ内で完結します。

FlowSpeechは、原稿やアップロードしたファイルを人間らしい音声に変換する、文脈対応のテキスト読み上げスタジオです。複数の生成モード、間や感情の調整、無料プランと有料プランを提供します。

xAIのGrok Speech to Text and Text to Speech APIsは、RESTとWebSocketでアプリに文字起こしと音声生成を追加できる開発者向けAPI。多言語STT、表現豊かなTTS、従量課金に対応。

Gemini 3.1 Flash TTSは、表現力の高いAI音声を生成し、スタイルや話し方を細かく制御できるGoogleのプレビュー音声合成モデルです。Gemini API、Google AI Studio、Vertex AI、Google Vidsで利用できます。

Guardrails 2.0は、ElevenLabsのElevenAgents向け制御レイヤー。AI音声エージェントをトピックに沿って保ち、ポリシーに合わせて、商用環境でより安全に運用できます。

HeyGen Developersの公式APIドキュメント。AIアバター動画、翻訳、lipsync、インタラクティブ動画エージェントの開発に対応。API、MCP、CLIで利用可能。

Smallest.ai Lightning TTSは、低遅延・多言語対応・高速音声クローンに対応したテキスト読み上げAPI。音声エージェントやナレーション制作、業務向け音声ワークフローに最適。

Voxtral TTSは、Mistralの多言語テキスト読み上げモデル。音声エージェントや企業向け音声ワークフローに、自然で低遅延の音声を生成し、短い参照音声での適応も可能。

Gemini 3.1 Flash Live は、Google のリアルタイム音声モデル。開発者向けプレビューをGoogle AI Studioで提供し、Gemini LiveやSearch Liveで自然な対話を実現します。

listen.は、記事URLやPDF、貼り付けたテキストをポッドキャストアプリで聴ける音声に変換。毎日の記事フィードとChrome拡張にも対応。

Voizematicは、電話の着信・発信、予約設定、フォローアップを自動化するAI音声エージェントプラットフォーム。コード不要で導入でき、Google Workspace連携にも対応します。

Clipchamp の AI 画外音生成器は、動画向けのオンライン文字起こし音声機能。多言語の音声選択、話速や音色の調整に対応し、ブラウザー内でそのまま使えます。