UStackUStack
Attention Residuals (AttnRes) icon

Attention Residuals (AttnRes)

Attention Residuals (AttnRes) modifie l’agrégation des résidus dans les LLM avec une attention softmax dépendante de l’entrée ; Block AttnRes réduit l’overhead.

Attention Residuals (AttnRes)

Qu’est-ce qu’Attention Residuals (AttnRes) ?

Attention Residuals (AttnRes) est une modification d’architecture pour les grands modèles de langage qui altère la façon dont les connexions résiduelles agrègent l’information à travers les couches. Dans de nombreuses configurations LLM modernes, les connexions résiduelles avec PreNorm accumulent toutes les sorties des couches précédentes avec des poids unitaires fixes, ce qui peut entraîner une croissance incontrôlée des états cachés en profondeur et diluer la contribution de chaque couche.

AttnRes remplace l’accumulation fixe par une attention softmax apprise et dépendante de l’entrée sur les sorties des couches précédentes, afin que chaque couche puisse agréger sélectivement les représentations antérieures. Pour rendre cela pratique en entraînement à grande échelle, l’article introduit Block AttnRes, qui réduit la surcharge mémoire et communication en effectuant l’attention sur des représentations au niveau des blocs plutôt que sur toutes les sorties des couches précédentes.

Fonctionnalités clés

  • Attention softmax sur les sorties des couches précédentes (AttnRes) : Utilise des poids appris et dépendants de l’entrée pour décider dans quelle mesure les représentations des couches antérieures contribuent à la couche courante.
  • Attention par blocs (Block AttnRes) : Partitionne les couches en blocs et effectue l’attention au niveau des blocs pour réduire l’empreinte mémoire par rapport à une attention complète sur toutes les couches précédentes.
  • Communication par pipeline basée sur cache : Intègre des mécanismes de cache pour le parallélisme par pipeline afin de réduire la surcharge de communication pendant l’entraînement.
  • Stratégie de calcul en deux phases : Ajoute une structure de calcul destinée à rendre l’approche d’attention par blocs pratique lors de l’entraînement de modèles à grande échelle.
  • Remplacement direct des connexions résiduelles : Conçu pour remplacer les connexions résiduelles standard avec une surcharge minimale par rapport à la configuration résiduelle de base.
  • Validé sur diverses tailles de modèles avec expériences de lois d’échelle et ablations : Rapporte des améliorations constantes sur différentes tailles de modèles et des résultats d’ablation soutenant l’avantage de la sélection en profondeur dépendante du contenu.

Comment utiliser Attention Residuals (AttnRes)

Si vous implémentez ou évaluez cette idée de recherche, commencez par identifier le motif de connexion résiduelle utilisé dans votre modèle cible (spécifiquement les connexions résiduelles avec PreNorm et accumulation à poids unitaires fixes). Puis :

  1. Remplacez l’agrégation résiduelle par AttnRes, en utilisant l’attention softmax pour calculer des poids dépendants de l’entrée sur les sorties des couches précédentes.
  2. Si le coût d’entraînement est une préoccupation, utilisez Block AttnRes en partitionnant les couches en blocs et en effectuant l’attention sur les représentations au niveau des blocs pour réduire l’utilisation mémoire.
  3. Suivez les composants de praticité d’entraînement décrits dans l’article — communication par pipeline basée sur cache et stratégie de calcul en deux phases — pour gérer la surcharge lors du scaling.
  4. Évaluez sur des tâches aval et/ou effectuez des ablations pour confirmer que la sélection dépendante du contenu améliore les performances dans votre contexte.

Cas d’usage

  • Améliorer la stabilité d’entraînement des LLM profonds où la dilution PreNorm pose problème : Appliquez AttnRes pour résoudre le problème rapporté selon lequel l’agrégation uniforme peut entraîner une croissance des états cachés et une contribution de couche progressivement diluée.
  • Configurations d’entraînement à grande échelle sensibles aux coûts mémoire/communication de l’attention : Utilisez Block AttnRes pour conserver les avantages de l’agrégation sélective tout en réduisant la surcharge liée à l’attention sur toutes les couches précédentes.
  • Expériences d’architecture sur des variantes de connexions résiduelles : Comparez les connexions résiduelles standard aux agrégations résiduelles basées sur attention pour quantifier l’impact de la sélection dépendante du contenu sur les performances.
  • Évaluation aval de la qualité des représentations sur diverses tâches : Utilisez la méthode dans une architecture pré-entraînée pour tester si la mitigation de la dilution produit de meilleurs résultats aval sur les tâches évaluées.

FAQ

  • Quel problème AttnRes résout-il ? Cette approche cible les connexions résiduelles (notamment avec PreNorm) qui accumulent toutes les sorties de couches avec des poids unitaires fixes, ce que le papier indique comme pouvant causer une croissance incontrôlée des états cachés en profondeur et diluer la contribution de chaque couche.

  • En quoi AttnRes diffère-t-il des connexions résiduelles standard ? Au lieu d’une agrégation à poids unitaires fixes, AttnRes utilise une attention softmax apprise et dépendante de l’entrée pour agréger sélectivement les sorties des couches précédentes.

  • Pourquoi introduire Block AttnRes ? Le papier décrit que l’attention complète sur toutes les sorties de couches précédentes introduit un overhead mémoire et communication à grande échelle ; Block AttnRes le réduit en se focalisant sur des représentations de niveau bloc.

  • Block AttnRes est-il conçu pour être pratique en entraînement ? Oui. La description associe Block AttnRes à des composants d’entraînement supplémentaires — communication par pipeline basée sur cache et stratégie de calcul en deux phases — visant à réduire l’overhead et à en faire un remplacement direct des connexions résiduelles.

  • Où AttnRes a-t-il été intégré et testé ? Le contenu mentionne son intégration dans une architecture « Kimi Linear » (48B paramètres totaux / 3B activés) et un pré-entraînement sur 1,4T tokens, avec des améliorations rapportées en aval sur les tâches évaluées.

Alternatives

  • Connexions résiduelles standard avec PreNorm (baseline) : L’alternative la plus directe ; elle utilise une accumulation à poids unitaires fixes sur les sorties de couches et sert de baseline qu’AttnRes vise à améliorer.
  • Variantes de connexions résiduelles modifiant la normalisation ou les mécanismes d’agrégation : Si votre objectif est de gérer les effets liés à la profondeur, vous pourriez comparer d’autres modifications architecturales qui altèrent la combinaison d’informations entre couches sans utiliser d’attention sur les sorties précédentes.
  • Autres mécanismes attention-efficaces pour réseaux profonds : Pour des contraintes de coût d’entraînement, des alternatives sont des méthodes réduisant la mémoire/communication d’attention (par exemple, approches limitant la portée d’attention ou restructurant le calcul), bien que les algorithmes spécifiques diffèrent du design d’attention par blocs décrit ici.
  • Techniques de sélection de contenu hors agrégation résiduelle : Si vous voulez une sélection en profondeur dépendante de l’entrée, vous pouvez envisager d’autres façons de gater ou router l’information entre couches plutôt que d’appliquer directement une attention softmax aux sorties de couches précédentes.
Attention Residuals (AttnRes) | UStack