xAI 提供 Grok Speech to Text 与 Text to Speech APIs:低延迟 REST/WebSocket 转写与合成,多语言支持,含说话人分离与 TTS 语音标签。
Gemini 3.1 Flash TTS 是 Google 文本转语音模型,生成更自然有表现力的 AI 语音;支持细粒度音频标签控制语音风格与节奏,70+ 语言,并带 SynthID 水印。
ElevenLabs Guardrails 2.0 为 ElevenAgents 提供可配置安全与行为控制,在语音 AI 回复到达终端前拦截不安全或不合规输出。
HeyGen Developers 是基于 API 的平台,用于生成、翻译和口型同步视频,集成头像与 TTS 模型,支持规模化生产工作流。
Lightning TTS v3 是 Smallest.ai 的低延迟多语言文字转语音 API,支持语音克隆,适用于语音代理与生产级音频;注册送 $10 免费额度。
Voxtral TTS 是 Mistral AI 的多语言文本转语音模型,面向低延迟自然语音生成,并支持可适配的说话人音色用于语音代理流程。
Gemini 3.1 Flash Live 是 Google 的实时音频与语音模型,面向更自然、可靠的语音交互,覆盖开发者 API 及 Search Live/Gemini Live。
把任意文章变成播客音频:粘贴链接到 listen. 在播客应用中收听,或按主题订阅每日精选文章音频。
Voizematic AI 语音代理软件,用于构建并部署电话自动化:无限呼入/外呼、Google日历预约、自动跟进,支持25+语言。
Clipchamp AI Voice Over Generator 在线文本转语音TTS工具,把文字快速生成逼真画外音并用于视频;支持多语言与语速情感调节。
Maestra AI媒体翻译平台:生成转录、字幕与多语言配音,支持实时翻译与直播字幕,适用于视频与音频本地化。
Inworld AI 提供实时文本转语音、语音转文字和实时语音转语音 API,并配套 Router 跨多 LLM 供应商选择与故障切换。
Fliki 把文本、PPT、博客或产品URL生成AI视频与配音,支持多语言与AI形象;可免费开始,注册不需信用卡。
WikiTrip 是 iPhone 定位旅行音频导览:自动朗读附近 Wikipedia 文章的 AI 语音,适合步行、驾车或出行免手操作收听。
Synthesys.io AI内容套件,生成逼真头像视频与配音/配音稿,多语言视频配音,并配套生成营销与内容图片。
把单一直播转成多语言广播:实时AI音频配音,多语言输出到 YouTube、Twitch、X 等目的地。
LOVO 是 AI 配音生成与文字转语音工具,可生成 100+ 语言的拟真人声音,并提供在线视频编辑与字幕同步能力。
Herodot AI 提供基于照片叙事与地图导航的AI语音导览和自助游体验,手机上即可探索全球目的地。
TADA(Text-Acoustic Dual Alignment)是 Hume AI 开源文本转语音模型,实现文本与音频一对一同步,提升语音生成速度与可靠性。
Ondoku 文字转语音(TTS)软件:粘贴文本选择语音即可朗读,并支持下载为 .mp3,提供多语言与多种语音选项。