Skip to main content
QUICK REVIEW

[論文レビュー] Batch Normalization Biases Deep Residual Networks Towards Shallow Paths

Soham De, Samuel Smith|arXiv (Cornell University)|Jan 1, 2020
Machine Learning and Data Classification被引用数 18
ひとこと要約

この論文は、バッチ正規化(BN)が初期化時に残差ブランチを約 1/sqrt(depth) にスケーリングすることにより、深層残差ネットワークの訓練を可能にしていることを明らかにした。この洞察から、BN を使用せずに深層残差ネットワークを訓練できる新しい初期化スキームが提案され、BN の主な利点は最適化の高速化ではなく、初期化に起因する安定性であることが示された。

ABSTRACT

Batch normalization dramatically increases the largest trainable depth of residual networks, and this benefit has been crucial to the empirical success of deep residual networks on a wide range of benchmarks. We show that this key benefit arises because, at initialization, batch normalization downscales the residual branch relative to the skip connection, by a normalizing factor on the order of the square root of the network depth. This ensures that, early in training, the function computed by normalized residual blocks in deep networks is close to the identity function (on average). We use this insight to develop a simple initialization scheme that can train deep residual networks without normalization. We also provide a detailed empirical study of residual networks, which clarifies that, although batch normalized networks can be trained with larger learning rates, this effect is only beneficial in specific compute regimes, and has minimal benefits when the batch size is small.

研究の動機と目的

  • バッチ正規化がなぜ深層残差ネットワークを可能にするのかを理解すること。
  • BN が初期化効果によって訓練をどのように安定化させるかを調査すること。
  • BN の利点を再現する BN 無しの初期化スキームを開発すること。
  • 学習率とバッチサイズが残差ネットワークの訓練ダイナミクスに与える影響を明確にすること。

提案手法

  • BN が初期化時に効果を発揮するように、残差ブランチを 1/sqrt(depth) にスケーリングする新しい初期化スキームを提案する。
  • BN を用いた場合の初期化時の残差ブロック出力の期待値を分析し、それが恒等関数に近づくことを示す。
  • 提案された初期化の有無にかかわらず、BN あり・なしのネットワークの訓練ダイナミクスを実験的に比較する。
  • 学習率とバッチサイズを変化させ、BN と訓練安定性の相互作用を調査する。
  • 統計的分析を用いて、初期化時の残差ブロック出力が恒等関数からどれほど逸脱しているかを定量的に評価する。
  • CIFAR-10 や ImageNet といった標準ベンチマークを用いて結果を検証する。

実験結果

リサーチクエスチョン

  • RQ1なぜバッチ正規化が深層残差ネットワークの訓練を可能にするのか?
  • RQ2バッチ正規化は初期関数が残差ブロックによってどのように影響を受けるか?
  • RQ3適切な初期化により、バッチ正規化なしで同様の訓練安定性を達成できるか?
  • RQ4BN と併用した場合に大きな学習率が有効であるという利点は、異なるバッチサイズにおいても維持されるか?
  • RQ5初期化が深層残差ネットワークの成功に果たす役割は何か?

主な発見

  • バッチ正規化は初期化時に残差ブランチを約 1/sqrt(depth) にスケーリングし、ネットワークの初期関数を恒等関数に近づけることで訓練を安定化させる。
  • 提案された初期化スキームにより、バッチ正規化なしでも深層残差ネットワークの訓練が可能となり、同等の性能が達成された。
  • バッチサイズが小さい場合、BN を用いた場合の大きな学習率の利点は限定的であるため、最適化の利点は小さい。
  • BN の主な貢献は、最適化の高速化やより良い最適化というよりも、初期化に起因する安定性の向上である。
  • 実験結果から、BN なしで新しい初期化を用いたネットワークは、CIFAR-10 および ImageNet において BN の性能を再現した。
  • 本研究は、BN の成功が主に初期化効果に起因することを明確にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。