QUICK REVIEW

[論文レビュー] L2 Regularization versus Batch and Weight Normalization

Twan van Laarhoven|arXiv (Cornell University)|Jun 16, 2017

Advanced Neural Network Applications参考文献 4被引用数 210

ひとこと要約

論文は正規化を用いるとL2正則化は正則化効果を持たないことを示しており（バッチ正規化、ウェイト正規化、層正規化いずれか）、代わりに重みの尺度と有効学習率を変化させることを理論的かつ CIFAR-10 上で実証的に探索している。

ABSTRACT

Batch Normalization is a commonly used trick to improve the training of deep neural networks. These neural networks use L2 regularization, also called weight decay, ostensibly to prevent overfitting. However, we show that L2 regularization has no regularizing effect when combined with normalization. Instead, regularization has an influence on the scale of weights, and thereby on the effective learning rate. We investigate this dependence, both in theory, and experimentally. We show that popular optimization methods such as ADAM only partially eliminate the influence of normalization on the learning rate. This leads to a discussion on other ways to mitigate this issue.

研究の動機と目的

正規化が用いられる場合にL2正規化が真の正則化を提供するかを調査する。
正規化下で重みの尺度が勾配更新と学習率にどう影響するかを分析する。
重みのスケーリングが一般的な最適化手法とどう相互作用するかを理論的に導出する。
CIFAR-10で正則化、重み尺度、学習率の関係を実験的に検証する。

提案手法

正規化の下で objective Lλ(w) = L(w) + λ||w||^2 を分析する。ここで y(Xi; αw, γ, β) = y(Xi; w, γ, β)。
Lλ(αw) = Lλα^2(w) を示し、正則化項が関数を変えずに重みをスケールすることを意味する。
勾配 ∇yBN および ∇yWN が重みのスケーリングとともにどのようにスケールするか、これがどうして様々な最適化手法で ηeff = η/||w||^2 となるかを導出する。
SGD、Momentum、RMSProp、ADAM、ニュートン/ヘッセ基づくアプローチでの ηeff の理論式を提供する。
CIFAR-10 上で 4 層 CNN とBatch Normalizationを用いた実験的検証を行い、λ、η、重みノルムの相互作用を示す。

実験結果

リサーチクエスチョン

RQ1Batch/Weight/Layer Normalization が用いられるときL2正規化は関数を正則化するか？
RQ2正規化の下で重みのスケールは一般的な最適化手法全体で有効学習率にどう影響するか？
RQ3重みを正規化することや特定の最適化手法を選択することは λ と学習率の相互作用を緩和できるか？
RQ4Batch Normalization 下でλとηを変化させたとき CIFAR-10 でどのような実験的挙動が現れるか？

主な発見

正規化の下でL2正規化は関数を正則化せず、単に重みをより小さなスケールへ押しやるだけである。
勾配とそれに伴う有効学習率は重みのスケールに依存し、複数の最適化法で ηeff は ||w||^2 に反比例する。
正規化下で重み尺度を減らすと有効学習率が上昇し、制御されないと学習を不安定にする可能性がある。
SGDとNesterovモーメンタムでは最適学習率は η* ∝ 1/λ、RMSPropとADAMでは η* ∝ 1/√λ。
重みを各更新後に単位ノルムに正規化すると、訓練ダイナミクスのλ依存性をほぼ除去する。
CIFAR-10 の実験は、一定の ηeff の対角線が概ね一定のテスト誤差を与えることを示し、理論的な ηeff の関係を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。