[論文レビュー] Understanding the Difficulty of Training Transformers
この論文は、Transformerの学習不安定性の原因が、残差接続への過剰な依存にあると特定している。この問題を解決するために、著者らは、初期学習段階で残差依存度を低くすることで安定性を向上させ、後続段階でモデル容量を解放する、適応的初期化手法Adminを提案する。これにより、72層のTransformerを用いたWMT’14 En-Fr翻訳タスクにおいて、43.80 BLEUという最先端の性能を達成した。
Transformers have proved effective in many NLP tasks. However, their training requires non-trivial efforts regarding designing cutting-edge optimizers and learning rate schedulers carefully (e.g., conventional SGD fails to train Transformers effectively). Our objective here is to understand $ extit{what complicates Transformer training}$ from both empirical and theoretical perspectives. Our analysis reveals that unbalanced gradients are not the root cause of the instability of training. Instead, we identify an amplification effect that influences training substantially -- for each layer in a multi-layer Transformer model, heavy dependency on its residual branch makes training unstable, since it amplifies small parameter perturbations (e.g., parameter updates) and results in significant disturbances in the model output. Yet we observe that a light dependency limits the model potential and leads to inferior trained models. Inspired by our analysis, we propose Admin ($ extbf{Ad}$aptive $ extbf{m}$odel $ extbf{in}$itialization) to stabilize stabilize the early stage's training and unleash its full potential in the late stage. Extensive experiments show that Admin is more stable, converges faster, and leads to better performance. Implementations are released at: https://github.com/LiyuanLucasLiu/Transforemr-Clinic.
研究の動機と目的
- NLPタスクにおけるTransformerの成功にもかかわらず、なぜ学習が難しいのかを理解すること。
- 勾配の不均衡が原因でない他の要因が、学習不安定性の主な原因であるかどうかを調査すること。
- 特に残差ブランチへの依存という構造的設計要因が、学習安定性とモデル容量に与える影響を特定すること。
- 初期学習段階での安定性を高めつつ、後続段階でのモデル潜在能力を損なわない方法を開発すること。
- 特に長文翻訳タスクにおいて、深層Transformerアーキテクチャで最先端の性能を達成すること。
提案手法
- 著者らは、分散比を用いて各Transformer層の残差ブランチへの依存度を分析し、f(x)を残差出力とすると、依存度を Var[f(x)] / Var[x + f(x)] として定義する。
- Post-LNとPre-LNのTransformerアーキテクチャを比較し、Post-LN層はより強い残差依存度を示し、パラメータ更新に対して不安定になることを示す。
- Admin(適応的モデル初期化)を提案する。これは初期化段階で残差接続のスケールを動的に調整し、初期学習段階での依存度を低減する。
- Adminは、初期段階で残差更新を抑制する学習可能なスケーリング因子を用い、学習が進むにつれて徐々に増幅させてモデル容量を解放する。
- この手法はモデル初期化時に適用され、追加のハイパーパrameterやアーキテクチャ変更を必要としない。
- IWSLT’14 De-En、WMT’14 En-De、WMT’14 En-Frの各データセットで、72層モデルを含むさまざまな深さの構成に対して実験が実施された。
実験結果
リサーチクエスチョン
- RQ1勾配の不均衡を超えて、Transformerにおける学習不安定性の原因となる構造的要因は何か?
- RQ2勾配の挙動が類似しているにもかかわらず、なぜPost-LN学習はPre-LN学習よりも容易に発散するのか?
- RQ3パラメータの摂動が学習中にどのように伝搬されるかに、残差ブランチへの依存度がどのように影響するか?
- RQ4初期化段階での残差依存度の制御によって、深層Transformerの学習を安定化させられ、モデルの潜在能力を損なわないか?
- RQ5適応的初期化手法は、深層アーキテクチャにおいてPost-LNおよびPre-LNベースラインを上回る性能を発揮できるか?
主な発見
- Post-LNのTransformerは、Pre-LNバージョンに比べて顕著に高い残差依存度を示し、微小なパラメータ摂動を拡大させ、学習不安定性を引き起こす。
- Pre-LNモデルはより安定しているが、弱い残差依存度のためモデル容量が制限され、性能が劣る。
- Adminは、評価されたすべてのデータセットおよびアーキテクチャで学習を安定化させ、WMT’14 En-Frにおける72層Transformerでも、従来手法では学習に失敗していたが、成功を収めた。
- 60層エンコーダと12層デコーダを用いたWMT’14 En-Frでは、Adminが43.80という新しい最先端のBLEUスコアを達成した。
- Adminは、標準的なPost-LNおよびPre-LNベースライン、および事前学習済みT5モデルをすべて上回り、モデルの潜在能力を最大限に引き出せる能力を示した。
- 追加のハイパーパrameterやアーキテクチャの変更を導入せず、より速い収束性と優れた安定性を達成した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。