QUICK REVIEW

[論文レビュー] Slowing Down the Weight Norm Increase in Momentum-based Optimizers

Byeongho Heo, Sanghyuk Chun|arXiv (Cornell University)|Jun 15, 2020

Advanced Neural Network Applications参考文献 19被引用数 22

ひとこと要約

この論文は、ミニバッチ正則化と組み合わせたモーメンタムベースの最適化手法（SGD や Adam など）が、スケール不変性のため、制御不能な重みノルムの増大を悪化させ、有効な学習率が抑制され、最適でない性能を引き起こすことを特定した。本稿では、重み更新の径方向成分を除去することで不要なノルム増大を防ぐ、SGDP および AdamP と呼ばれる改良型最適化手法を提案する。これにより、多様なディープラーニングタスクにおいて、訓練の安定性と性能が向上する。

ABSTRACT

Normalization techniques, such as batch normalization (BN), have led to significant improvements in deep neural network performances. Prior studies have analyzed the benefits of the resulting scale invariance of the weights for the gradient descent (GD) optimizers: it leads to a stabilized training due to the auto-tuning of step sizes. However, we show that, combined with the momentum-based algorithms, the scale invariance tends to induce an excessive growth of the weight norms. This in turn overly suppresses the effective step sizes during training, potentially leading to sub-optimal performances in deep neural networks. We analyze this phenomenon both theoretically and empirically. We propose a simple and effective solution: at each iteration of momentum-based GD optimizers (e.g. SGD or Adam) applied on scale-invariant weights (e.g. Conv weights preceding a BN layer), we remove the radial component (i.e. parallel to the weight vector) from the update vector. Intuitively, this operation prevents the unnecessary update along the radial direction that only increases the weight norm without contributing to the loss minimization. We verify that the modified optimizers SGDP and AdamP successfully regularize the norm growth and improve the performance of a broad set of models. Our experiments cover tasks including image classification and retrieval, object detection, robustness benchmarks, and audio classification. Source code is available at this https URL.

研究の動機と目的

ミニバッチ正則化と組み合わせたモーメンタムベースの最適化手法における重みノルム増大の悪影響を調査すること。
ミニバッチ正則化層におけるスケール不変性が、訓練中に過剰な重みノルム増大を引き起こすメカニズムを分析すること。
その結果生じる有効ステップサイズの抑制が収束性とモデル性能を損なう理由を解明すること。
ネットワークアーキテクチャの変更なしに、重みノルム増大を正則化するシンプルで効果的な手法を開発すること。
提案手法を多様なディープラーニングタスクおよびモデルで実験的に検証すること。

提案手法

最適化ステップ毎に、更新ベクトルの径方向成分（現在の重みベクトルに平行な成分）を投影して除去した後、更新を適用する。
更新ベクトルを重みベクトルに射影し、その成分を差し引くことで、損失を改善しないままノルムを増大させる変更を効果的に除去する。
このアプローチを、SGD や Adam などの標準的なモーメンタムベース最適化手法に適用し、それぞれ SGDP および AdamP を得る。
修正は軽量であり、既存の訓練パイプラインと互換性があり、標準的な最適化手法の設定を超えてハイパーパrameterのチューニングを必要としない。
ミニバッチ正則化の有益なスケール不変性を保ちながら、不安定なノルム増大を防ぐ。
径方向成分の除去は、更新ベクトルが重みノルム球の接空間上に位置することを強制する制約と数学的に同等である。

実験結果

リサーチクエスチョン

RQ1ミニバッチ正則化とモーメンタムベース最適化手法の組み合わせが、訓練中の重みノルムダイナミクスに与える影響は何か？
RQ2スケール不変性があるにもかかわらず、過剰な重みノルム増大がディープネットワークのモデル性能を劣化させる理由は何か？
RQ3最適化プロセスから径方向更新を除去することで、訓練の安定性と一般化性能が向上するか？
RQ4提案された SGDP および AdamP 最適化手法は、多様なアーキテクチャおよびタスクにおいて、標準的な SGD や Adam と比べてどのように異なるか？
RQ5提案手法は、ロバストネスベンチマークおよび下流タスクにおいて、性能を維持または向上させるか？

主な発見

提案された SGDP および AdamP 最適化手法は、ミニバッチ正則化ネットワークにおける重みノルム増大を効果的に正則化し、訓練中に過剰な増大を防いでいる。
修正された最適化手法は、画像分類、オブジェクト検出、音声分類タスクにおいて、より良い一般化性能と高速な収束性を達成している。
ImageNet や Cifar-100 などの複数のベンチマークで、SGDP および AdamP は標準的な SGD や Adam を上回っており、トップ-1精度で一貫した向上が得られている。
分布シフトや adversarial な入力に対してもロバストネスが向上し、摂動下でも優れた一般化性能を示している。
径方向更新の除去は計算コストの増加が最小限であり、ResNets や Vision Transformers、EfficientNet を含む広範なモデルで有効である。
実験結果から、ノルム増大による有効ステップサイズの抑制が緩和され、より安定的で効率的な訓練が実現されていることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。