Attention Residuals (AttnRes)

什么是 Attention Residuals (AttnRes)？

Attention Residuals (AttnRes) 是大型语言模型的模型架构修改，它改变了残差连接跨层聚合信息的方式。在许多现代 LLM 配置中，带有 PreNorm 的残差连接使用固定单位权重累积所有前层输出，这可能导致隐藏状态随深度无控增长，并稀释每层贡献度。

AttnRes 用针对前层输出的可学习、输入相关的 softmax 注意力替换固定累积，从而使每层能选择性地聚合早期表示。为了实现大规模训练的可行性，该论文引入 Block AttnRes，通过关注块级表示而非所有前层输出，来降低内存和通信开销。

如果您正在实现或评估这一研究思路，请从识别目标模型中使用的残差连接模式开始（特别是带有 PreNorm 和固定单位权重累积的残差连接）。然后：

AttnRes 解决了什么问题？ 该方法针对残差连接（特别是 PreNorm），它使用固定单位权重累积所有层输出，论文指出这会导致隐藏状态随深度无控增长，并稀释每层贡献。
AttnRes 与标准残差连接有何不同？ AttnRes 不使用固定单位权重聚合，而是采用可学习、输入相关的 softmax 注意力来选择性聚合前层输出。
为什么引入 Block AttnRes？ 论文描述，全注意力覆盖所有前层输出会在大规模时引入内存和通信开销；Block AttnRes 通过块级表示注意力来降低此开销。
Block AttnRes 是否旨在用于实际训练？ 是的。描述将 Block AttnRes 与额外训练组件关联——基于缓存的流水线通信和两阶段计算策略——旨在降低开销，并作为残差连接的即插即用替换。
AttnRes 在哪里集成和测试？ 内容提到集成到“Kimi Linear”架构（总 48B 参数 / 激活 3B 参数），并在 1.4T token 上预训练，以及评估任务中的下游改进。

带 PreNorm 的标准残差连接（基线）： 最直接的替代；它使用固定单位权重跨层输出累积，并作为 AttnRes 旨在改进的基线。
更改归一化或聚合机制的残差连接变体： 如果目标是管理深度相关效应，可比较其他架构修改，这些修改改变跨层信息组合方式，而不使用对前层输出的注意力。
深度网络的其他注意力高效机制： 对于训练成本约束，替代方法是减少注意力内存/通信的方法（例如，限制注意力范围或重构计算的方法），尽管具体算法不同于此处描述的块注意力设计。
残差聚合之外的内容选择技术： 如果需要输入相关的深度选择，可考虑跨层门控或路由信息的方式，而不是直接对前层输出应用 softmax 注意力。