UStackUStack
Attention Residuals (AttnRes) icon

Attention Residuals (AttnRes)

Attention Residuals (AttnRes) — архитектурная модификация LLM: вместо фиксированной агрегации residual применяет learned softmax attention по входу; Block AttnRes снижает оверхед.

Attention Residuals (AttnRes)

Что такое Attention Residuals (AttnRes)?

Attention Residuals (AttnRes) — это изменение архитектуры модели для больших языковых моделей, которое модифицирует способ агрегации информации residual-связями между слоями. В многих современных настройках LLM residual-связи с PreNorm накапливают все выходы предыдущих слоёв с фиксированными весами единичной величины, что может привести к неконтролируемому росту скрытых состояний с увеличением глубины и разбавлению вклада каждого слоя.

AttnRes заменяет фиксированное накопление на learned softmax-внимание, зависящее от входа, над выходами предыдущих слоёв, чтобы каждый слой мог выборочно агрегировать более ранние представления. Для практичности в крупномасштабном обучении статья вводит Block AttnRes, который снижает затраты памяти и коммуникации, применяя внимание на уровне блоков вместо всех предыдущих выходов слоёв.

Ключевые особенности

  • Softmax-внимание над выходами предыдущих слоёв (AttnRes): Использует learned веса, зависящие от входа, для определения вклада представлений ранних слоёв в текущий.
  • Блочное внимание (Block AttnRes): Разбивает слои на блоки и применяет внимание на уровне блоков, снижая потребление памяти по сравнению с полным вниманием над всеми предыдущими слоями.
  • Кэш-механизмы для коммуникации в pipeline: Включает кэширование для pipeline-параллелизма, чтобы уменьшить коммуникационные затраты при обучении.
  • Двухфазная стратегия вычислений: Добавляет структуру вычислений для практичности блочного внимания при крупномасштабном обучении моделей.
  • Drop-in замена для residual-связей: Разработано для замены стандартных residual-связей с минимальными дополнительными затратами относительно базовой схемы.
  • Валидация на моделях разного размера с экспериментами по scaling laws и абляциями: Показывает стабильное улучшение по размерам моделей и результаты абляций, подтверждающие пользу выбора по глубине в зависимости от контента.

Как использовать Attention Residuals (AttnRes)

Если вы реализуете или оцениваете эту исследовательскую идею, начните с выявления паттерна residual-связей в целевой модели (конкретно — residual-связи с PreNorm и накоплением с фиксированными весами единичной величины). Затем:

  1. Замените агрегацию residual на AttnRes, используя softmax-внимание для вычисления весов, зависящих от входа, над выходами предыдущих слоёв.
  2. Если важна стоимость обучения, используйте Block AttnRes, разбив слои на блоки и применяя внимание на уровне блоков для снижения потребления памяти.
  3. Следуйте компонентам практичности обучения из статьи — кэш-механизмам для pipeline-коммуникации и двухфазной стратегии вычислений — для управления затратами при масштабировании.
  4. Оцените на downstream-задачах и/или проведите абляции, чтобы подтвердить улучшение производительности за счёт выбора в зависимости от контента.

Случаи применения

  • Повышение стабильности обучения глубоких LLM, где dilution в PreNorm вызывает проблемы: Примените AttnRes для решения проблемы роста скрытых состояний и постепенного разбавления вклада слоёв из-за равномерной агрегации.
  • Крупномасштабные настройки обучения, чувствительные к затратам памяти/коммуникации на внимание: Используйте Block AttnRes, чтобы сохранить преимущества выборочной агрегации при снижении затрат на внимание по всем предыдущим слоям.
  • Эксперименты с вариантами residual-связей в архитектуре моделей: Сравните стандартные residual-связи с вниманием-based агрегацией, чтобы количественно оценить влияние выбора в зависимости от контента на производительность.
  • Downstream-оценка качества представлений по задачам: Используйте метод в предобученной архитектуре, чтобы проверить, даёт ли устранение dilution лучшие результаты на оцениваемых задачах.

FAQ

  • Какую проблему решает AttnRes? Подход нацелен на residual-соединения (особенно с PreNorm), которые накапливают все выходы слоёв с фиксированными весами единицы; по данным статьи, это вызывает неконтролируемый рост скрытых состояний с глубиной и разбавляет вклад каждого слоя.

  • Чем AttnRes отличается от стандартных residual-соединений? Вместо фиксированной агрегации с весами единицы AttnRes применяет learned softmax attention, зависящую от входа, для селективной агрегации выходов предыдущих слоёв.

  • Зачем вводить Block AttnRes? Статья описывает, что полное attention по всем предыдущим выходам слоёв создаёт оверхед по памяти и коммуникациям в масштабе; Block AttnRes снижает это, применяя attention на уровне блоков представлений.

  • Предназначен ли Block AttnRes для практического обучения? Да. Описание связывает Block AttnRes с дополнительными компонентами обучения — коммуникацией на основе кэша и стратегией вычислений в две фазы — для снижения оверхеда и использования как drop-in замены residual-соединений.

  • Где интегрировали и тестировали AttnRes? Упоминается интеграция в архитектуру “Kimi Linear” (48B всего / 3B активированных параметров) и предобучение на 1.4T токенов, а также улучшения на downstream-задачах.

Альтернативы

  • Стандартные residual-соединения с PreNorm (базлайн): Самая прямая альтернатива; использует фиксированное накопление с весами единицы по выходам слоёв и служит базлайном для улучшения AttnRes.
  • Варианты residual-соединений с изменением нормализации или механики агрегации: Если цель — управление эффектами глубины, можно сравнить другие архитектурные модификации, меняющие комбинацию информации по слоям без attention по предыдущим выходам.
  • Другие механизмы attention с низкими затратами для глубоких сетей: При ограничениях по затратам обучения — методы снижения памяти/коммуникаций attention (например, ограничение охвата attention или реструктуризация вычислений), хотя конкретные алгоритмы отличаются от block attention.
  • Техники селекции контента вне residual-агрегации: Для input-зависимой селекции по глубине можно рассмотреть альтернативы гейтинга или роутинга информации по слоям вместо прямого softmax attention по предыдущим выходам слоёв.