[論文レビュー] AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights
AdamPは、運動量最適化器における径方向成分を除去する投影ベースの更新を導入し、スケール不変重みに対して有効なステップサイズを保持し、多様なタスクで性能向上をもたらす。
Normalization techniques are a boon for modern deep learning. They let weights converge more quickly with often better generalization performances. It has been argued that the normalization-induced scale invariance among the weights provides an advantageous ground for gradient descent (GD) optimizers: the effective step sizes are automatically reduced over time, stabilizing the overall training procedure. It is often overlooked, however, that the additional introduction of momentum in GD optimizers results in a far more rapid reduction in effective step sizes for scale-invariant weights, a phenomenon that has not yet been studied and may have caused unwanted side effects in the current practice. This is a crucial issue because arguably the vast majority of modern deep neural networks consist of (1) momentum-based GD (e.g. SGD or Adam) and (2) scale-invariant parameters. In this paper, we verify that the widely-adopted combination of the two ingredients lead to the premature decay of effective step sizes and sub-optimal model performances. We propose a simple and effective remedy, SGDP and AdamP: get rid of the radial component, or the norm-increasing direction, at each optimizer step. Because of the scale invariance, this modification only alters the effective step sizes without changing the effective update directions, thus enjoying the original convergence properties of GD optimizers. Given the ubiquity of momentum GD and scale invariance in machine learning, we have evaluated our methods against the baselines on 13 benchmarks. They range from vision tasks like classification (e.g. ImageNet), retrieval (e.g. CUB and SOP), and detection (e.g. COCO) to language modelling (e.g. WikiText) and audio classification (e.g. DCASE) tasks. We verify that our solution brings about uniform gains in those benchmarks. Source code is available at https://github.com/clovaai/AdamP.
研究の動機と目的
- 問題の動機付け: 正規化層から生じるスケール不変性は重みをスケール不変にし、モーメントベースの最適化器下で有効なステップサイズの低下を招く。
- モーメントがスケール不変な重みにおけるノルム成長を加速させ、学習効率を低下させる仕組みを調査する。
- 更新方向を保持しつつ有効ステップサイズを安定化させる、単純な投影ベースの解決策(SGDP/AdamP)を提案する。
- 複数のベンチマークとアーキテクチャに渡って手法の有効性を示す。
- 実世界のトレーニングパイプラインでの適用方法に関する実践的な指針とコードを提供する。
提案手法
- モーメントを用いた SGD/Adamにおけるスケール不変性が有効ステップサイズに与える影響をモデル化する。
- モーメント下での重みノルムの成長が正規化された重みの球面上で有効ステップの崩壊を加速させることを導く。
- 更新から放射状 (ノルム増加) 成分を除去するため、重みの接線空間への射影演算子を導入する。
- 更新を射影条件付きで適用する、スケール不変な重みを検出するコサイン類似度に基づく射影条件を用いたSGDPとAdamPを定義する。
- 射影済みの更新が正規化された重みの球面上で有効な方向を保持し、収束特性を維持することを主張する。
- チャネル単位および層単位のバリアントを備えた実用的なアルゴリズム(SGDPとAdamP)を提供する。
実験結果
リサーチクエスチョン
- RQ1モーメントはスケール不변な重みとどのように相互作用して、学習中の有効な学習率に影響を与えるのか。
- RQ2更新の放射状成分を射影して、重み空間上でモーメントの利点を回復または維持できるか。
- RQ3SGDPとAdamPは標準のSGD/AdamW/Adamを超えて、さまざまなタスクとアーキテクチャで性能を向上させるか。
- RQ4提案された射影アプローチは大規模トレーニングに十分な計算効率を持つか。
主な発見
- スケール不変な重みを伴うモーメントは重みノルムの成長を加速させ、有効ステップサイズの急速な減衰を引き起こす。
- モーメント更新を重み球の接線空間へ射影する simple projection はノルム蓄積を防ぎつつ更新方向を保持する。
- SGDPとAdamPはImageNet、検索、検出、頑健性、音声、言語モデリングなどを含む13のベンチマークで一貫した性能向上を示す。
- AdamPは画像分類、物体検出、頑健性ベンチマーク、音声分類など、いくつかのタスクでベースラインより優れており、オーバーヘッドは控えめ。
- Transformerベースの言語モデリングでは、ウェイト正規化を用いたAdamPの適用によりWikiText-103で困惑度が改善される。
- ℓ2正規化埋め込みを用いた検索ベンチマークは、複数データセットでAdamWよりもAdamPが向上を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。