speech-core 是一款基于 C++17 的端侧语音代理流水线引擎,支持 VAD、流式与批量语音转文字、说话人分离和文字转语音。帮助开发者在 Linux、Windows、Android 及 Apple 相关工作流中构建本地语音应用,无需云端推理。
Voiser.ai 是一款 AI 文本转语音和配音生成器,可将书面文本转换为语音音频。支持多种声音和语言,适用于旁白、推广内容和多语言项目。
Podio:News Podcast Maker,AI 音频应用,将你关注的主题和新闻兴趣转化为个性化每日播客流。可在 iPhone 和 iPad 上免手操作收听新闻、摘要和自定义话题节目。
Tico 是 Windows 上的 AI 助手:聆听你的语音提问,理解屏幕内容,并用语音给出分步指导,定位正确点击位置。
Yeta AI把公开YouTube视频实时AI配音并翻译为10+语言,浏览器直接播放。每月15分钟免费,无需绑卡。
Morph 将电子书与有声书合为同步阅读体验,可同时阅读/收听,并提供 AI 助手解答书籍与章节问题。
FlowSpeech 是 AI 文本转语音工具,可将脚本生成拟人音频,支持情感与精确停顿控制,提供 30+ 声音、70+ 语言。
xAI 提供 Grok Speech to Text 与 Text to Speech APIs:低延迟 REST/WebSocket 转写与合成,多语言支持,含说话人分离与 TTS 语音标签。
Gemini 3.1 Flash TTS 是 Google 文本转语音模型,生成更自然有表现力的 AI 语音;支持细粒度音频标签控制语音风格与节奏,70+ 语言,并带 SynthID 水印。
ElevenLabs Guardrails 2.0 为 ElevenAgents 提供可配置安全与行为控制,在语音 AI 回复到达终端前拦截不安全或不合规输出。
HeyGen Developers 是基于 API 的平台,用于生成、翻译和口型同步视频,集成头像与 TTS 模型,支持规模化生产工作流。
Lightning TTS v3 是 Smallest.ai 的低延迟多语言文字转语音 API,支持语音克隆,适用于语音代理与生产级音频;注册送 $10 免费额度。
Voxtral TTS 是 Mistral AI 的多语言文本转语音模型,面向低延迟自然语音生成,并支持可适配的说话人音色用于语音代理流程。
Gemini 3.1 Flash Live 是 Google 的实时音频与语音模型,面向更自然、可靠的语音交互,覆盖开发者 API 及 Search Live/Gemini Live。
把任意文章变成播客音频:粘贴链接到 listen. 在播客应用中收听,或按主题订阅每日精选文章音频。
Voizematic AI 语音代理软件,用于构建并部署电话自动化:无限呼入/外呼、Google日历预约、自动跟进,支持25+语言。
Clipchamp AI Voice Over Generator 在线文本转语音TTS工具,把文字快速生成逼真画外音并用于视频;支持多语言与语速情感调节。
Maestra AI媒体翻译平台:生成转录、字幕与多语言配音,支持实时翻译与直播字幕,适用于视频与音频本地化。
Inworld AI 提供实时文本转语音、语音转文字和实时语音转语音 API,并配套 Router 跨多 LLM 供应商选择与故障切换。
Fliki 把文本、PPT、博客或产品URL生成AI视频与配音,支持多语言与AI形象;可免费开始,注册不需信用卡。