UStackUStack
Attention Residuals (AttnRes) icon

Attention Residuals (AttnRes)

Attention Residuals (AttnRes) 以可學習、輸入依賴的 softmax 注意力取代固定殘差聚合;Block AttnRes 降低大規模訓練開銷。

Attention Residuals (AttnRes)

什麼是 Attention Residuals (AttnRes)?

Attention Residuals (AttnRes) 是大型語言模型的模型架構變更,修改殘差連接如何跨層聚合資訊。在許多現代 LLM 設定中,採用 PreNorm 的殘差連接使用固定單位權重累積所有先前層輸出,這可能導致隱藏狀態隨著深度增長失控,並稀釋各層貢獻度。

AttnRes 以可學習、輸入依賴的 softmax 注意力取代固定累積,讓各層能選擇性聚合先前表示。為使大規模訓練實用,論文引入 Block AttnRes,透過注意力作用於區塊級表示而非所有先前層輸出,降低記憶體與通訊開銷。

主要特色

  • 先前層輸出的 softmax 注意力 (AttnRes): 使用可學習、輸入依賴權重決定先前層表示對當前層貢獻多少。
  • 區塊式注意力 (Block AttnRes): 將層分為區塊並在區塊級執行注意力,相較全先前層注意力降低記憶體佔用。
  • 基於快取的管線通訊: 整合快取機制支援管線並行,幫助降低訓練期間通訊開銷。
  • 兩階段計算策略: 增加計算結構,使區塊注意力在大規模模型訓練中實用。
  • 殘差連接的直接替換設計: 設計為以最小開銷取代標準殘差連接,相對於基準殘差設定。
  • 跨模型規模驗證,包含縮放法實驗與消融: 報告跨模型規模一致改善,並有消融結果支持內容依賴深度選擇的益處。

如何使用 Attention Residuals (AttnRes)

若您正在實作或評估此研究構想,請先識別目標模型使用的殘差連接模式(特別是 PreNorm 與固定單位權重累積的殘差連接)。然後:

  1. 以 AttnRes 取代殘差聚合,使用 softmax 注意力計算先前層輸出的輸入依賴權重。
  2. 若訓練成本為考量,使用 Block AttnRes,將層分為區塊並注意力作用於區塊級表示,以降低記憶體使用。
  3. 遵循論文所述訓練實用元件—基於快取的管線通訊與兩階段計算策略—以管理擴展時開銷。
  4. 評估 下游任務及/或執行消融,確認內容依賴選擇是否改善您的設定效能。

使用情境

  • 改善 PreNorm 稀釋問題的深度 LLM 訓練穩定性: 套用 AttnRes 解決均勻聚合導致隱藏狀態增長與層貢獻逐漸稀釋的問題。
  • 對注意力記憶體/通訊成本敏感的大規模訓練設定: 使用 Block AttnRes 保留選擇性聚合益處,同時降低跨所有先前層注意力的開銷。
  • 殘差連接變體的模型架構實驗: 比較標準殘差連接與基於注意力的殘差聚合,量化內容依賴選擇對效能影響。
  • 跨任務表示品質的下游評估: 在預訓練架構中使用此方法,測試緩解稀釋是否產生更好下游結果。

常見問題

  • AttnRes 解決什麼問題? 此方法針對殘差連接(特別是 PreNorm),其使用固定單位權重累積所有層輸出,論文指出這會隨著深度增加導致隱藏狀態失控增長,並稀釋各層貢獻。

  • AttnRes 與標準殘差連接有何不同? AttnRes 不使用固定單位權重聚合,而是採用可學習、輸入依賴的 softmax 注意力來選擇性聚合先前層輸出。

  • 為何引入 Block AttnRes? 論文描述,對所有先前層輸出的全注意力在大規模時會引入記憶體與通訊開銷;Block AttnRes 透過區塊級表示注意力來降低此開銷。

  • Block AttnRes 是否適合用於訓練? 是。描述將 Block AttnRes 與額外訓練元件連結——基於快取的管線通訊與兩階段計算策略——旨在降低開銷,並作為殘差連接的直接替換。

  • AttnRes 在何處整合與測試? 內容提及整合至「Kimi Linear」架構(總 48B / 啟動 3B 參數)並在 1.4T 權重上預訓練,以及評估任務中的下游改善。

替代方案

  • 搭配 PreNorm 的標準殘差連接(基準): 最直接替代;使用固定單位權重跨層輸出累積,並作為 AttnRes 欲改善的基準。
  • 改變正規化或聚合機制的殘差連接變體: 若目標是管理深度相關效應,可比較其他改變跨層資訊組合方式的架構修改,而不使用對先前輸出的注意力。
  • 深度網路的其他注意力高效機制: 針對訓練成本限制,替代方案為降低注意力記憶體/通訊的方法(例如限制注意力範圍或重組計算),雖然具體演算法與所述區塊注意力設計不同。
  • 殘差聚合外的內容選擇技術: 若需輸入依賴的深度選擇,可考慮替代閘控或路由跨層資訊的方式,而非直接對先前層輸出套用 softmax 注意力。