UStackUStack
TADA (Text-Acoustic Dual Alignment) icon

TADA (Text-Acoustic Dual Alignment)

TADA(Text-Acoustic Dual Alignment)是 Hume AI 开源文本转语音模型,实现文本与音频一对一同步,提升语音生成速度与可靠性。

TADA (Text-Acoustic Dual Alignment)

什么是 TADA (Text-Acoustic Dual Alignment)?

TADA (Text-Acoustic Dual Alignment) 是 Hume AI 的开源语音语言模型,用于文本转语音。其核心目的是通过严格一对一对齐文本和音频表示来生成语音。

TADA 采用一种标记化/对齐方案,让文本和语音以锁步方式通过模型处理,而不是强迫语言模型处理音频标记远多于文本标记的序列。这一设计旨在提升生成速度,并减少跳过或幻觉内容等失败模式。

主要特性

  • 一对一文本-音频同步: 模型将声学表示直接对齐到每个文本标记(每个文本标记对应一个连续声学向量),形成单一同步流。
  • 与模型步粒度对齐的架构: 每个 LLM 步精确对应一个文本标记和一个音频帧,这是降低推理开销的关键因素。
  • 用于输入音频特征的编码器 + 对齐器: 对于输入音频,编码器与对齐器配对,从对应每个文本标记的音频片段中提取声学特征。
  • 用于输出声学生成的流匹配头: 对于输出,LLM 的最终隐藏状态条件化流匹配头生成声学特征,随后解码为音频。
  • 报告的速度和可靠性特性: 博客报告 RTF(实时因子)为 0.09,在 1000+ LibriTTSR 测试样本上使用基于 CER 阈值实现零幻觉。

如何使用 TADA

首先获取 Hume AI 为 TADA 提供的开源代码和预训练模型。然后使用模型运行推理,将文本转换为语音(TTS),实现所述一对一文本-音频同步行为。

如果您在评估特定用例的质量和可靠性,源材料指出测试在 LibriTTSR 上进行了幻觉率评估,在 EARS 数据集上评估了说话人相似度和自然度。您可以使用相同评估框架(例如,通过 CER 阈值检测可懂度和跳过)来评估适用性。

使用场景

  • 设备端语音生成: 博客描述 TADA 足够轻量,可部署到移动电话和边缘设备,无需云端推理。
  • 长篇叙述和扩展对话: 由于该方法比传统系统更上下文高效,它针对相同上下文预算下的更长音频片段。
  • 可靠性至关重要的对话语音接口: 源材料强调“几乎零内容幻觉”,可减少下游对跳过或插入内容的兜底处理需求。
  • 需要低延迟的音频优先产品: 报告的 RTF 0.09 支持实时生成快于实际时间以确保响应性的场景。
  • 语音建模研究的开发者实验: 由于提供代码和预训练模型,团队可研究或适配标记化/对齐方法,而非将 TTS 视为黑盒。

常见问题

TADA 是文本转语音 (TTS) 模型吗?
是的。它被描述为基于 LLM 的语音语言模型,用于从文本生成语音,并具有同步文本-音频对齐。

TADA 中的“一对一同步”是什么意思?
博客描述每个 LLM 步严格映射一个文本标记和一个音频帧,使用每个文本标记的对齐声学向量。

TADA 需要后训练来防止幻觉吗?
源材料指出模型在大规模野外数据上训练“无需后训练”,并在 1000+ LibriTTSR 测试样本上实现指定 CER 阈值下的零幻觉。

TADA 的报告速度和上下文特性是什么?
博客报告 RTF 为 0.09,并指出传统系统在约 70 秒音频时耗尽 2048 标记上下文窗口,而 TADA 在相同预算下可容纳约 700 秒(同一节明确讨论标记/帧率差异)。

是否有已知限制?
页面指出长篇生成中偶发说话人漂移形式的退化,并提及通过中间策略重置上下文的变通方法。它还指出生成文本伴随语音时,语言质量相对于纯文本模式下降,并引入 Speech Free Guidance (SFG) 作为相关技术。

替代方案

  • 传统基于 LLM 的 TTS(使用中间语义令牌): 这些方法通过压缩或插入中间表示来解决文本/音频不匹配问题,通常会牺牲表现力或增加复杂性,与 TADA 的直接一对一对齐相比。
  • 降低音频帧率或压缩音频令牌的 TTS 模型: 如果您的目标是控制序列长度,其他系统可能将音频压缩为更少的离散单元,但源信息表明这可能影响表现力和/或可靠性。
  • 无严格文本-音频对齐的专用语音合成管道: 这些系统不强制文本令牌与声学帧之间的一对一对应,而是使用不同的条件方案,这可能简化建模,但无法提供与 TADA 相同的对齐强制行为。
  • 基于云的 TTS API: 如果您的优先级是快速集成而非设备端部署,托管服务是一个选项;然而,源信息特别强调设备端部署是 TADA 的目标能力。
TADA (Text-Acoustic Dual Alignment) | UStack