UStackUStack
Attention Residuals (AttnRes) icon

Attention Residuals (AttnRes)

Attention Residuals (AttnRes) 用输入相关softmax注意力替代固定残差聚合,Block AttnRes 降低大规模训练的开销与通信成本。

Attention Residuals (AttnRes)

什么是 Attention Residuals (AttnRes)?

Attention Residuals (AttnRes) 是大型语言模型的模型架构修改,它改变了残差连接跨层聚合信息的方式。在许多现代 LLM 配置中,带有 PreNorm 的残差连接使用固定单位权重累积所有前层输出,这可能导致隐藏状态随深度无控增长,并稀释每层贡献度。

AttnRes 用针对前层输出的可学习、输入相关的 softmax 注意力替换固定累积,从而使每层能选择性地聚合早期表示。为了实现大规模训练的可行性,该论文引入 Block AttnRes,通过关注块级表示而非所有前层输出,来降低内存和通信开销。

关键特性

  • 针对前层输出的 softmax 注意力 (AttnRes): 使用可学习、输入相关的权重决定早期层表示对当前层的贡献度。
  • 块级注意力 (Block AttnRes): 将层分区为块,并在块级执行注意力,以减少相对于全前层注意力的内存占用。
  • 基于缓存的流水线通信: 集成缓存机制支持流水线并行,以降低训练期间的通信开销。
  • 两阶段计算策略: 添加计算结构,使块注意力方法在大规模模型训练中实用。
  • 残差连接的即插即用替换框架: 设计为以最小开销替换标准残差连接,相对于基线残差设置。
  • 跨模型规模验证,包括缩放定律实验和消融: 报告跨模型规模的一致改进,以及支持内容相关深度选择的消融结果。

如何使用 Attention Residuals (AttnRes)

如果您正在实现或评估这一研究思路,请从识别目标模型中使用的残差连接模式开始(特别是带有 PreNorm 和固定单位权重累积的残差连接)。然后:

  1. 用 AttnRes 替换残差聚合,使用 softmax 注意力计算前层输出的输入相关权重。
  2. 如果训练成本是问题,使用 Block AttnRes,通过将层分区为块并关注块级表示来降低内存使用。
  3. 遵循论文中描述的训练实用组件——基于缓存的流水线通信和两阶段计算策略——以管理扩展时的开销。
  4. 在下游任务上评估 和/或运行消融,以确认内容相关选择在您的设置中提升性能。

使用场景

  • 改善 PreNorm 稀释问题下的深度 LLM 训练稳定性: 应用 AttnRes 解决均匀聚合导致隐藏状态增长和层贡献渐进稀释的问题。
  • 对注意力内存/通信成本敏感的大规模训练设置: 使用 Block AttnRes 保留选择性聚合益处,同时降低跨所有前层注意力的开销。
  • 残差连接变体的模型架构实验: 比较标准残差连接与基于注意力的残差聚合,以量化内容相关选择对性能的影响。
  • 跨任务表示质量的下游评估: 在预训练架构中使用该方法,测试缓解稀释是否在评估任务中产生更好下游结果。

常见问题

  • AttnRes 解决了什么问题? 该方法针对残差连接(特别是 PreNorm),它使用固定单位权重累积所有层输出,论文指出这会导致隐藏状态随深度无控增长,并稀释每层贡献。

  • AttnRes 与标准残差连接有何不同? AttnRes 不使用固定单位权重聚合,而是采用可学习、输入相关的 softmax 注意力来选择性聚合前层输出。

  • 为什么引入 Block AttnRes? 论文描述,全注意力覆盖所有前层输出会在大规模时引入内存和通信开销;Block AttnRes 通过块级表示注意力来降低此开销。

  • Block AttnRes 是否旨在用于实际训练? 是的。描述将 Block AttnRes 与额外训练组件关联——基于缓存的流水线通信和两阶段计算策略——旨在降低开销,并作为残差连接的即插即用替换。

  • AttnRes 在哪里集成和测试? 内容提到集成到“Kimi Linear”架构(总 48B 参数 / 激活 3B 参数),并在 1.4T token 上预训练,以及评估任务中的下游改进。

替代方案

  • 带 PreNorm 的标准残差连接(基线): 最直接的替代;它使用固定单位权重跨层输出累积,并作为 AttnRes 旨在改进的基线。
  • 更改归一化或聚合机制的残差连接变体: 如果目标是管理深度相关效应,可比较其他架构修改,这些修改改变跨层信息组合方式,而不使用对前层输出的注意力。
  • 深度网络的其他注意力高效机制: 对于训练成本约束,替代方法是减少注意力内存/通信的方法(例如,限制注意力范围或重构计算的方法),尽管具体算法不同于此处描述的块注意力设计。
  • 残差聚合之外的内容选择技术: 如果需要输入相关的深度选择,可考虑跨层门控或路由信息的方式,而不是直接对前层输出应用 softmax 注意力。
Attention Residuals (AttnRes) | UStack