QUICK REVIEW

[論文レビュー] Understanding Batch Normalization

Johan Björck, Carla P. Gomes|arXiv (Cornell University)|Jun 1, 2018

Stochastic Gradient Optimization Techniques参考文献 41被引用数 40

ひとこと要約

Batch Normalization（BN）は主により大きな学習率での学習を可能にし、それがより速い収束とより良い汎化につながる。BNがないと勾配と活性化は深さとともに発散する可能性がある一方、BNは活性化を平均0、分散1に保ち、トレーニングを安定させる。

ABSTRACT

Batch normalization (BN) is a technique to normalize activations in intermediate layers of deep neural networks. Its tendency to improve accuracy and speed up training have established BN as a favorite technique in deep learning. Yet, despite its enormous success, there remains little consensus on the exact reason and mechanism behind these improvements. In this paper we take a step towards a better understanding of BN, following an empirical approach. We conduct several experiments, and show that BN primarily enables training with larger learning rates, which is the cause for faster convergence and better generalization. For networks without BN we demonstrate how large gradient updates can result in diverging loss and activations growing uncontrollably with network depth, which limits possible learning rates. BN avoids this problem by constantly correcting activations to be zero-mean and of unit standard deviation, which enables larger gradient steps, yields faster convergence and may help bypass sharp local minima. We further show various ways in which gradients and activations of deep unnormalized networks are ill-behaved. We contrast our results against recent findings in random matrix theory, shedding new light on classical initialization schemes and their consequences.

研究の動機と目的

内部共変シフトという当初の仮説を超えた、Batch Normalization（BN）の利点のメカニズムを調査する。
BNがどのようにより大きな学習率を可能にし、それがより速い収束とより良い汎化にどう寄与するかを定量化する。
正規化されていないネットワークが、特に深さが増すにつれて、BNを用いたネットワークと比較して勾配と活性化が不安定に振る舞う様子を検証する。
経験的な知見を、深層ネットワークの初期化と条件づけに関するランダム行列理論の洞察と関連づける。

提案手法

学習率を変化させながら、CIFAR-10上の110層ResNetを用いてBNとBNなしを比較する経験的分析。
発散と安定性の性質を特定するため、学習率区間とトレーニングダイナミクスを体系的に探索する。
勾配と活性化の分布の可視化と測定（層間の平均と分散を含む）。
畳み込み重みの勾配とチャンネルごとの影響の解析を通じて、BNが勾配の大きさをどのように変えるかを理解する。
深層ネットワークにおける初期化と条件づけの効果を解釈するため、ランダム行列理論との関連を探る。

実験結果

リサーチクエスチョン

RQ1Batch Normalizationは主により大きな学習率を可能にするのか、そしてこれが利点の主な源泉なのか？
RQ2正規化されていないネットワークとBNを用いたネットワークで、勾配と活性化は特に深さが増すにつれてどう挙動するのか？
RQ3ランダム行列理論を踏まえたBNの有効性におけるネットワーク初期化と条件づけの役割は何か？
RQ4最終層のみを正規化することは、中間のBN層と同等に影響力があるのか？
RQ5大きな勾配更新を適用したときの発散リスクに対してBNはどのように影響するのか？

主な発見

BNは大きな学習率での学習を可能にし、正規化されていないネットワークと比較してより速い収束と汎化の改善をもたらす。
BNがないと、学習率が大きい場合に勾配と活性化が発散し深さとともに大きくなるが、BNは活性化を平均0、分散1に抑え、トレーニングを安定させる。
BNは初期化による不良条件づけに対する頑健性を提供し、深い線形システムと条件づけに関するランダム行列理論の洞察と一致する。
BNを用いたネットワークは初期化時にクラス間で勾配がより均等に分布するのに対し、正規化されていないネットワークは特定のクラスへ高度に相関した大きな勾配を示す。
BNの利点の substantial portion が最終出力層を正規化することにあり、性能向上の大部分を占める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。