Skip to main content
QUICK REVIEW

[論文レビュー] Towards Stabilizing Batch Statistics in Backward Propagation of Batch Normalization

Junjie Yan, Ruosi Wan|arXiv (Cornell University)|Jan 19, 2020
Blind Source Separation Techniques参考文献 17被引用数 29
ひとこと要約

この論文では、逆伝播中にバッチ統計を移動平均に置き換えることで、バッチ統計の安定化を図る新しい正則化手法であるMoving Average Batch Normalization (MABN) を提案する。これにより、推論時に非線形演算を導入することなく、バニラバッチ正則化の完全な性能回復が可能となり、小バッチ設定でも安定した性能を発揮する。MABNはバッチサイズが1または2であっても、標準的なBNと同等の性能を達成し、COCOおよびImageNetにおいてSyncBNと同等の性能を示しながら、推論効率を維持する。

ABSTRACT

Batch Normalization (BN) is one of the most widely used techniques in Deep Learning field. But its performance can awfully degrade with insufficient batch size. This weakness limits the usage of BN on many computer vision tasks like detection or segmentation, where batch size is usually small due to the constraint of memory consumption. Therefore many modified normalization techniques have been proposed, which either fail to restore the performance of BN completely, or have to introduce additional nonlinear operations in inference procedure and increase huge consumption. In this paper, we reveal that there are two extra batch statistics involved in backward propagation of BN, on which has never been well discussed before. The extra batch statistics associated with gradients also can severely affect the training of deep neural network. Based on our analysis, we propose a novel normalization method, named Moving Average Batch Normalization (MABN). MABN can completely restore the performance of vanilla BN in small batch cases, without introducing any additional nonlinear operations in inference procedure. We prove the benefits of MABN by both theoretical analysis and experiments. Our experiments demonstrate the effectiveness of MABN in multiple computer vision tasks including ImageNet and COCO. The code has been released in https://github.com/megvii-model/MABN.

研究の動機と目的

  • メモリ制約によりバッチサイズが制限される物体検出やセマンティックセグメンテーションなどのビジョンタスクにおいて、小バッチ学習におけるバッチ正則化(BN)の不安定性を解消すること。
  • BNの逆伝播においてこれまで無視されてきた2つのバッチ統計が、学習の不安定性に与える影響を特定および分析すること。
  • 推論時に非線形演算を追加せずに、小バッチ環境下でもバニラBNの性能を完全に回復できる正則化手法を開発すること。
  • 提案手法の理論的裏付けと、複数のビジョンベンチマークにおける実験的検証を提供すること。

提案手法

  • 本手法は、前向き伝播における指数的移動平均統計(EMAS)と、逆向き伝播における滑らかな移動平均統計(SMAS)という2つの異なる移動平均統計を導入する。
  • EMASは、ランニング統計のモーメンタムベースの更新を用いて、前向き伝播におけるバッチ統計を置き換えることで、特徴の正則化を安定化させる。
  • SMASは、逆向き伝播におけるバッチ統計を置き換えることで、勾配計算の安定性を高め、学習の崩壊を防ぐために変更された正則化形式を採用する。
  • 正則化形式を再構築することで、バッチ統計の数を削減し、畳み込みカーネル重みを集中化させ、安定性を向上させる。
  • 小バッチでの学習における発散を防ぐために、勾配の一貫性を維持するための再正則化戦略を適用する。
  • 移動統計の更新にはモーメンタムベースのルールを用い、安定性と収束性を最適化するためのハイパーパrameterを調整する。

実験結果

リサーチクエスチョン

  • RQ1なぜバッチ正則化は、大バッチ設定では成功しているものの、小バッチ学習では失敗するのか?
  • RQ2バッチ正則化の逆伝播において、これまで無視されてきたバッチ統計とは何か? それらは学習の安定性にどのように影響を与えるのか?
  • RQ3推論時に非線形演算を追加せずに、小バッチ環境下でもバニラバッチ正則化の性能を完全に回復できるか?
  • RQ4前向き伝播と逆向き伝播の両方の統計を移動平均で安定化させつつ、BNの線形性を維持することで、効率的な推論を実現できるか?

主な発見

  • ResNet-50を用いたImageNetでは、バッチサイズ2でトップ1検証誤差23.58%を達成し、大バッチサイズでの標準BNと同等の性能を示した。
  • COCOインスタンスセグメンテーションでは、AP^{bbox}が34.85、AP^{mask}が31.61を達成し、SyncBNと同等の性能を示し、バニラBNやBRNを著しく上回った。
  • アブレーションスタディにより、前向き伝播におけるEMASと逆向き伝播におけるSMASの併用が不可欠であることが確認され、いずれかのコンponentを除去すると顕著な性能低下が生じた。
  • MABNは、バニラBNと同等の推論速度を維持している。一方、非線形演算を伴うインスタンス正則化手法とは異なり、推論時間が2倍になることはない。
  • バッチサイズ1でもMABNを用いた学習は安定して収束するが、逆伝播に直接移動平均を適用すると勾配の不安定性により失敗する。
  • 理論的分析により、MABNで用いられる変更された正則化形式は、特に小バッチ環境下で、バニラBN形式よりもより安定していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。