[論文レビュー] Rethinking the Usage of Batch Normalization and Dropout in the Training of Deep Neural Networks
提案 Independent-Component (IC) レイヤーを導入し、Batch Normalization と Dropout を組み合わせて層ごとに入力を白色化し、重み層の前に配置することで CIFAR および ImageNet の ResNet 系で収束を速め、一般化を向上させる。
In this work, we propose a novel technique to boost training efficiency of a neural network. Our work is based on an excellent idea that whitening the inputs of neural networks can achieve a fast convergence speed. Given the well-known fact that independent components must be whitened, we introduce a novel Independent-Component (IC) layer before each weight layer, whose inputs would be made more independent. However, determining independent components is a computationally intensive task. To overcome this challenge, we propose to implement an IC layer by combining two popular techniques, Batch Normalization and Dropout, in a new manner that we can rigorously prove that Dropout can quadratically reduce the mutual information and linearly reduce the correlation between any pair of neurons with respect to the dropout layer parameter $p$. As demonstrated experimentally, the IC layer consistently outperforms the baseline approaches with more stable training process, faster convergence speed and better convergence limit on CIFAR10/100 and ILSVRC2012 datasets. The implementation of our IC layer makes us rethink the common practices in the design of neural networks. For example, we should not place Batch Normalization before ReLU since the non-negative responses of ReLU will make the weight layer updated in a suboptimal way, and we can achieve better performance by combining Batch Normalization and Dropout together as an IC layer.
研究の動機と目的
- 層の入力を厳密な decorrelated activation preprocessing ではなく、より独立にすることで whitening のアイデアを再活性化する。
- 相互情報量とペア間の相関を低減させる、BatchNorm と Dropout を組み合わせた計算効率の高い IC レイヤーを開発する。
- 現代の CNN アーキテクチャ(ResNet 系統)で CIFAR-10/100 および ILSVRC2012 (ImageNet) を対象に手法をデモンストレーションする。
- BatchNorm と活性化の配置を重み層との関係で再考することによるニューラルネット設計の指針を提供する。
提案手法
- Independent-Component (IC) レイヤーを、各重み層の前に適用される BatchNorm の後に Dropout を加えたものとして定義する。
- Dropout がニューロン対間の相互情報を p^2 倍、相関を p 倍に低減することを理論的に示す。
- IC レイヤーを重み層の前に置くことが、従来の BatchNorm-前活性化配置よりも収束を速くし、訓練をより安定させることを主張・実証する。
- ResNet アーキテクチャを改変して IC レイヤーを組み込み、公正な比較のためにパラメータ数を比較可能に保つ。
- CIFAR-10/100 および ILSVRC2012 に対して経験的に検証し、訓練の安定性、収束速度、一般化を報告する。
実験結果
リサーチクエスチョン
- RQ1重み層の前の IC レイヤーとして BatchNorm と Dropout を組み合わせることは、標準の BatchNorm の配置と比較して訓練の安定性と収束速度を改善するか?
- RQ2訓練中のニューロン活性化の相互情報量と相関に対して IC レイヤーがどのような影響を与えるか?
- RQ3IC レイヤーはモデルの複雑さを大幅に増やすことなく、CIFAR-10/100 および ImageNet で ResNet 系の性能を向上させることができるか?
- RQ4大規模データセットにおける収束挙動と最終的な一般化に対する IC レイヤーの実証的影響は何か?
主な発見
- IC レイヤーは任意の二つのニューロン間の相互情報を p^2 倍に、相関を p 倍に低減できる。
- IC ベースの ResNet 系は、ベースラインと比較して CIFAR-10/100 でより安定した訓練、より速い収束、より良い収束限界を示す。
- IC 強化残差ユニットの中で、ReLU-IC-Conv2D 構成が、CIFAR データセットで最も安定した訓練と最も高い精度向上を提供することが多い。
- ILSVRC2012 (ImageNet) では、IC レイヤーの実装が、引用された dropout/BathNorm ベースライン手法と比較して収束が速く、収束挙動がより良い。
- 総じて、活性化の前ではなく重み層の前に IC レイヤーを配置することは、実用的な訓練上の利点をもたらし、従来の BatchNorm-前活性化の実践に挑戦する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。