[論文レビュー] A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training
要約: 提出論文は、Attentionと残差ストリームの顕在的な外れ値が正規化を介して他の成分を再スケーリングすることを主張し、訓練の安定性と量子化の堅牢性を向上させつつ残差シンクを緩和するためのゲーティングベースの再スケーリング(GatedNorm)を導入する。
We investigate the functional role of emergent outliers in large language models, specifically attention sinks (a few tokens that consistently receive large attention logits) and residual sinks (a few fixed dimensions with persistently large activations across most tokens). We hypothesize that these outliers, in conjunction with the corresponding normalizations ( extit{e.g.}, softmax attention and RMSNorm), effectively rescale other non-outlier components. We term this phenomenon extit{outlier-driven rescaling} and validate this hypothesis across different model architectures and training token counts. This view unifies the origin and mitigation of both sink types. Our main conclusions and observations include: (1) Outliers function jointly with normalization: removing normalization eliminates the corresponding outliers but degrades training stability and performance; directly clipping outliers while retaining normalization leads to degradation, indicating that outlier-driven rescaling contributes to training stability. (2) Outliers serve more as rescale factors rather than contributors, as the final contributions of attention and residual sinks are significantly smaller than those of non-outliers. (3) Outliers can be absorbed into learnable parameters or mitigated via explicit gated rescaling, leading to improved training performance (average gain of 2 points) and enhanced quantization robustness (1.2 points degradation under W4A4 quantization).
研究の動機と目的
- 大規模言語モデルにおける Attention Sink と Residual Sink の機能的役割を調査する。
- 外れ値が正規化と相互作用して非外れ値成分を再スケーリングすることを示す。
- 正規化を排除することや外れ値を素朴にクリッピングすることが訓練の安定性と性能を損なうことを示す。
- 外れ値駆動の再スケーリングを維持または置換する緩和戦略を提案・評価し、訓練と量子化を改善する。
提案手法
- 複数のモデルとトークン数にわたる Attention ロジットと残差活性化における外れ値パターンを分析する。
- 外れ値駆動の再スケーリングの概念を、外れ値と正規化(softmax Attentionと RMSNorm)の相互作用として形式化する。
- 正規化を除去する、外れ値をクリップする、または活性化関数を変更することによるアブレーションを実施し、安定性と性能を評価する。
- 正規化の前に外れ値を学習可能なパラメータに吸収する PreAffine RMSNorm を導入する。
- 正規化後に明示的なゲーティング機構を持つ GatedNorm を提案し、外れ値を減らしつつ再スケーリングを可能にして量子化の堅牢性を改善する。
実験結果
リサーチクエスチョン
- RQ1Attentionと残差ストリームの外れ値は、出力への直接的な寄与よりも再スケール因子として機能するのか。
- RQ2外れ値駆動の再スケーリングは安定した訓練に必須なのか、性能を損なうことなく維持または置換できるのか。
- RQ3明示的な再スケーリング機構(例:ゲーティング)は残差シンクを緩和し、量子化やアーキテクチャ選択への堅牢性を改善できるのか。
- RQ4異なる正規化および注意のバリアント(softmax、線形、ゲーティング)はシンクの形成と訓練安定性にどう影響するのか。
- RQ5外れ値を関数を失うことなくパラメータに吸収できるのか、モデル容量とデプロイのトレードオフは何か。
主な発見
- 外れ値は正規化と相互作用して再スケーリングを行い、正規化を除去すると安定性と性能が低下する。
- 外れ値は主に再スケール因子として機能し、出力への最終的な寄与は非外れ値より小さい。
- 外れ値は学習可能なパラメータに吸収可能、または明示的なゲーティング再スケーリングによって緩和でき、訓練と量子化の堅牢性を向上させる。
- GatedNormは残差シンクを削減し、性能を維持または向上させ、FP4設定下での量子化耐性を改善する。
- ゲーティングによる明示的な再スケーリングは外れ値への依存を減らし、アーキテクチャの選択に対する感度を低減し、活性化とアーキテクチャ間での堅牢性を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。