Attention Residuals (AttnRes)

什麼是 Attention Residuals (AttnRes)？

Attention Residuals (AttnRes) 是大型語言模型的模型架構變更，修改殘差連接如何跨層聚合資訊。在許多現代 LLM 設定中，採用 PreNorm 的殘差連接使用固定單位權重累積所有先前層輸出，這可能導致隱藏狀態隨著深度增長失控，並稀釋各層貢獻度。

AttnRes 以可學習、輸入依賴的 softmax 注意力取代固定累積，讓各層能選擇性聚合先前表示。為使大規模訓練實用，論文引入 Block AttnRes，透過注意力作用於區塊級表示而非所有先前層輸出，降低記憶體與通訊開銷。

若您正在實作或評估此研究構想，請先識別目標模型使用的殘差連接模式（特別是 PreNorm 與固定單位權重累積的殘差連接）。然後：

AttnRes 解決什麼問題？ 此方法針對殘差連接（特別是 PreNorm），其使用固定單位權重累積所有層輸出，論文指出這會隨著深度增加導致隱藏狀態失控增長，並稀釋各層貢獻。
AttnRes 與標準殘差連接有何不同？ AttnRes 不使用固定單位權重聚合，而是採用可學習、輸入依賴的 softmax 注意力來選擇性聚合先前層輸出。
為何引入 Block AttnRes？ 論文描述，對所有先前層輸出的全注意力在大規模時會引入記憶體與通訊開銷；Block AttnRes 透過區塊級表示注意力來降低此開銷。
Block AttnRes 是否適合用於訓練？ 是。描述將 Block AttnRes 與額外訓練元件連結——基於快取的管線通訊與兩階段計算策略——旨在降低開銷，並作為殘差連接的直接替換。
AttnRes 在何處整合與測試？ 內容提及整合至「Kimi Linear」架構（總 48B / 啟動 3B 參數）並在 1.4T 權重上預訓練，以及評估任務中的下游改善。

搭配 PreNorm 的標準殘差連接（基準）： 最直接替代；使用固定單位權重跨層輸出累積，並作為 AttnRes 欲改善的基準。
改變正規化或聚合機制的殘差連接變體： 若目標是管理深度相關效應，可比較其他改變跨層資訊組合方式的架構修改，而不使用對先前輸出的注意力。
深度網路的其他注意力高效機制： 針對訓練成本限制，替代方案為降低注意力記憶體/通訊的方法（例如限制注意力範圍或重組計算），雖然具體演算法與所述區塊注意力設計不同。
殘差聚合外的內容選擇技術： 若需輸入依賴的深度選擇，可考慮替代閘控或路由跨層資訊的方式，而非直接對先前層輸出套用 softmax 注意力。