QUICK REVIEW

[論文レビュー] Three Mechanisms of Weight Decay Regularization

Guodong Zhang, Chaoqi Wang|arXiv (Cornell University)|Oct 29, 2018

Neural Networks and Applications参考文献 20被引用数 55

ひとこと要約

本論文は、重み減衰正則化が最適化アルゴリズムとアーキテクチャをまたいで一般化を改善する3つの異なるメカニズムを特定する：より高い有効学習率、近似的なヤコビ行列ノルム正則化、そして2次法に対する有効減衰の低減。

ABSTRACT

Weight decay is one of the standard tricks in the neural network toolbox, but the reasons for its regularization effect are poorly understood, and recent results have cast doubt on the traditional interpretation in terms of $L_2$ regularization. Literal weight decay has been shown to outperform $L_2$ regularization for optimizers for which they differ. We empirically investigate weight decay for three optimization algorithms (SGD, Adam, and K-FAC) and a variety of network architectures. We identify three distinct mechanisms by which weight decay exerts a regularization effect, depending on the particular optimization algorithm and architecture: (1) increasing the effective learning rate, (2) approximately regularizing the input-output Jacobian norm, and (3) reducing the effective damping coefficient for second-order optimization. Our results provide insight into how to improve the regularization of neural networks.

研究の動機と目的

伝統的なL2解釈を超えて、なぜ重み減衰が一般化を改善するのかを調査する。
CNNアーキテクチャにおいて、SGD、Adam、K-FAC で重み減衰と L2 正則化を比較する。
重み減衰が Batch Normalization および異なる最適化アルゴリズムとどのように相互作用して訓練ダイナミクスに影響を与えるかを解明する。

提案手法

SGD、Adam、K-FAC（GN および Fisher 変種）に対する重み減衰と L2 正則化の効果を分析する。
BN に影響を受けるネットワークを調べ、表現制約と重みスケールを切り離す。
解釈を導出し検証する：有効学習率、ガウス-ニュートン / ヤコビノルム、および2次更新における減衰。
CIFAR-10/100 で VGG および ResNet アーキテクチャを用いた訓練中に、有効学習率、ヤコビノルム、減衰項を経験的に測定する。

実験結果

リサーチクエスチョン

RQ1異なる最適化アルゴリズムと BN-enabled アーキテクチャにおいて、重み減衰の正則化効果を説明するメカニズムは何か？
RQ2SGD、Adam、K-FAC における一般化性能の観点で、重み減衰と L2 正則化はどう比較されるか？
RQ33つの識別済メカニズム（有効学習率、ヤコビノルム正則化、減衰制御）が、観測された一般化ギャップを説明できるか？
RQ4BN は訓練ダイナミクスに対する重み減衰の影響を媒介する際、どのような役割を果たすか？

主な発見

重み減衰は一貫して一般化を改善し、両者が異なる場合にはしばしばL2正則化よりも優れている。
重み減衰は、一階・二階のオプティマイザ間、および小さいバッチと大きいバッチ間の一般化ギャップを縮小する。
BN対応ネットワークに対しても重み減衰は性能を向上させ、通常の意味で容量を制約しない。
重み減衰はK-FACに対して強い効果をもたらし、特にBNが無効な場合に二次的挙動を強化する。
メカニズムI: BNネットワークでのSGD/Adamにおいて、重み減衰は重みスケーリングによって有効学習率を高め、勾配ノイズ正則化を増幅することによって作用する。
メカニズムII: K-FACでは、重み減衰はガウス-ニュートンノルムを介して入力出力ヤコビ行列を概ね正則化し、ヤコビノルムと一般化と相関する。
メカニズムIII: BNネットワークでのK-FACにおいて、重み減衰は有効減衰を低減し、二次的特性を保持して一般化を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。