QUICK REVIEW

[論文レビュー] Four Things Everyone Should Know to Improve Batch Normalization

Cecilia Summers, Michael J. Dinneen|arXiv (Cornell University)|Jun 9, 2019

Advanced Neural Network Applications参考文献 48被引用数 30

ひとこと要約

この論文は、追加の学習計算を要せず、あらゆるミニバッチサイズにおいてモデル性能を向上させる、バッチ正規化の4つの実用的改善を同定する。推論時の例の重み付けを導入して、学習時と推論時の正規化の不一致を是正し、中規模バッチにおけるゴーストバッチ正規化の正則化効果を検証し、γ と β に重み減衰を適用することで一般化性能を向上させ、極めて小さなバッチサイズ向けにバッチ正規化とグループ正規化の長所を組み合わせたハイブリッド手法を提案。CIFAR-100では6%以上の精度向上を達成した。

ABSTRACT

A key component of most neural network architectures is the use of normalization layers, such as Batch Normalization. Despite its common use and large utility in optimizing deep architectures, it has been challenging both to generically improve upon Batch Normalization and to understand the circumstances that lend themselves to other enhancements. In this paper, we identify four improvements to the generic form of Batch Normalization and the circumstances under which they work, yielding performance gains across all batch sizes while requiring no additional computation during training. These contributions include proposing a method for reasoning about the current example in inference normalization statistics, fixing a training vs. inference discrepancy; recognizing and validating the powerful regularization effect of Ghost Batch Normalization for small and medium batch sizes; examining the effect of weight decay regularization on the scaling and shifting parameters gamma and beta; and identifying a new normalization algorithm for very small batch sizes by combining the strengths of Batch and Group Normalization. We validate our results empirically on six datasets: CIFAR-100, SVHN, Caltech-256, Oxford Flowers-102, CUB-2011, and ImageNet.

研究の動機と目的

バッチ正規化における学習時と推論時の正規化の見過ごされがちな不一致を是正すること。
大規模バッチとは限らない環境でも有用であるとされる正則化技術（例：ゴーストバッチ正規化）を同定し、検証すること。
バッチ正規化における学習可能なパラメータ γ と β に重み減衰を適用した場合の影響を調査すること。
バッチ正規化とグループ正規化の長所を組み合わせることで、極めて小さなバッチサイズでも有効な新しい正規化手法を開発すること。

提案手法

推論時、現在の例の統計と移動平均をブレンドすることで、推論時の例の重み付けを導入。これにより、学習時と推論時の不一致が軽減される。
各バッチをより小さなグループに分割して正規化するゴーストバッチ正規化を採用。これにより、中規模バッチでも正則化効果が向上し、単一GPUでの学習でも有効である。
バッチ正規化のスケーリング（γ）およびシフト（β）パラメータに重み減衰を直接適用。これにより、一般化性能が向上する。
バッチレベルとグループレベルの統計を組み合わせたハイブリッド正規化手法を提案。極小バッチにおいて、例間の情報を効果的に活用する。
推論時にバッチ統計の指数移動平均を用いる一方、現在の例の統計を学習可能な重み α を介して組み込む。
標準的な画像分類ベンチマークを用いて、6つのデータセットで訓練から再スクラッチおよび転移学習の両設定において、すべての手法を検証した。

実験結果

リサーチクエスチョン

RQ1学習時と推論時の正規化の不一致がモデル性能に与える影響は何か。また、追加計算なしに是正可能か。
RQ2ゴーストバッチ正規化は、元々の用途を超えて中規模および小規模バッチサイズでも一般化性能を向上させる程度は何か。
RQ3バッチ正規化における学習可能なパラメータ γ と β に重み減衰を適用した場合の効果は何か。これは意味のある正則化として機能するか。
RQ4バッチ正規化とグループ正規化の長所を活かせる統合的な正規化アプローチを、極めて小さなバッチサイズの状況で設計可能か。

主な発見

推論時の例の重み付けにより、i.i.d.でないミニバッチでは誤差率が最大20%まで低下し、再訓練を要しない。
ゴーストバッチ正規化は、i.i.d.でない環境でも、バッチ正規化の代替としての性能を達成しており、小さなゴーストバッチサイズでも有効である。
γ と β に重み減衰を適用することで一般化性能が向上し、特に小規模バッチ環境で顕著であった。全テストデータセットで有効であった。
提案されたハイブリッドバッチ-グループ正規化手法は、B=2 の CIFAR-100 で 76.1% の精度を達成。標準バッチ正規化を上回り、i.i.d.でないデータに対してもロバストである。
4つの改善を併用した場合、標準バッチ正規化と比較して、CIFAR-100 における精度が6%以上向上した。
ImageNet、Caltech-256、CUB-2011 といった多様なデータセットにおいても、訓練から再スクラッチおよび微調整の両状況で一貫した向上が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。