QUICK REVIEW

[論文レビュー] Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift

Xiang Li, Shuo Chen|arXiv (Cornell University)|Jan 16, 2018

Advanced Neural Network Applications参考文献 17被引用数 39

ひとこと要約

この論文は、ドロップアウトとバッチ正則化（BN）を組み合わせた際の性能低下の根本的原因として、訓練時と推論時における活性化分散の不一致である「ばらつきシフト」を特定した。2つの解決策を提案する：ドロップアウトをBN層の後ろに配置することと、一様ノイズを用いた分散安定型ドロップアウト「Uout」の導入。両者ともCIFARおよびImageNetベンチマークで不安定性を顕著に低減し、精度を向上させる。

ABSTRACT

This paper first answers the question "why do the two most powerful techniques Dropout and Batch Normalization (BN) often lead to a worse performance when they are combined together?" in both theoretical and statistical aspects. Theoretically, we find that Dropout would shift the variance of a specific neural unit when we transfer the state of that network from train to test. However, BN would maintain its statistical variance, which is accumulated from the entire learning procedure, in the test phase. The inconsistency of that variance (we name this scheme as "variance shift") causes the unstable numerical behavior in inference that leads to more erroneous predictions finally, when applying Dropout before BN. Thorough experiments on DenseNet, ResNet, ResNeXt and Wide ResNet confirm our findings. According to the uncovered mechanism, we next explore several strategies that modifies Dropout and try to overcome the limitations of their combination by avoiding the variance shift risks.

研究の動機と目的

ドロップアウトとバッチ正則化を組み合わせた深層ニューラルネットワークにおいて、性能低下の根本的原因を調査すること。
異なるネットワーク状態下における訓練時と推論時の活性化分散の乖離を分析すること。
ばらつきシフトに起因する不安定性を、修正された訓練および推論戦略によって解消すること。
正則化の利点を保ちつつ、モデル精度を維持または向上させる2つの実用的解決策を提案・検証すること。

提案手法

理論的分析により、ドロップアウトは推論時において保持率pに応じて活性化分散をスケーリングするが、BNは訓練中に蓄積された固定された移動分散を維持するため、不一致が生じることを示した。
著者らは、この訓練時と推論時の分散挙動の不一致を表す用語として「ばらつきシフト」を導入した。
ネットワークの順伝播の初期段階での分散の破壊を回避するため、ドロップアウトをBN層の後ろに配置することを提案した。
ベルヌーイ分布ではなく一様分布（r ~ U[-β, β]）を用いたドロップアウトの変種「Uout」を設計し、ばらつきシフトをpから約3/(3+β²)に低減した。
理論的導出により、Uoutのばらつきシフト率が標準ドロップアウトのそれよりも1.0にはるかに近いことが確認され、数値的不安定性が最小限に抑えられることを裏付けた。
ResNet、DenseNet、ResNeXt、Wide ResNetを用いたCIFAR10/100およびImageNetにおける広範な実験により、提案手法の有効性を検証した。

実験結果

リサーチクエスチョン

RQ1なぜドロップアウトとバッチ正則化を組み合わせると、深層ネットワークで性能が悪化することが多いのか？
RQ2ドロップアウトをBNの前に入れた場合、推論時に特定の統計的不一致が生じ、なぜ不安定化するのか？
RQ3層の順序を変更するか、ドロップアウト機構を変更することで、性能劣化を緩和できるか？
RQ4分散安定型ドロップアウトはばらつきシフトの影響を軽減し、一般化性能を向上させるか？

主な発見

すべてのBN層の後ろにドロップアウトを適用することで、ImageNet上でのトップ-1精度が一貫して向上し、ResNet-200では21.70%から21.48%、ResNeXt-101では20.40%から20.17%に向上した。
β=0.1のとき、Uoutのばらつきシフトは標準ドロップアウトの0.9から約0.9967にまで低減され、推論の安定性が顕著に向上した。
CIFAR100では、β=0.2のUoutはDenseNetおよびWRNで標準ドロップアウトより0.3%の精度向上を達成し、複数回の実験で一貫した改善が確認された。
実験により、ばらつきシフトが不安定性の主因であることが確認された。ドロップアウトをBNの前に配置した場合、推論時の実際の活性化分散がBNの移動分散から大きく逸脱した。
提案手法（BNの後ろにドロップアウトを配置する戦略とUout）は、計算コストの増加がほとんどないまま、一貫した性能向上を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。