[論文レビュー] How to Initialize your Network? Robust Initialization for WeightNorm & ResNets
本稿では、勾配の爆発・消失を防ぐために平均場近似を用いて、残差接続あり・なしの重み正規化ReLUネットワークに対する理論的裏付けのある初期化戦略を提案する。提案手法は、深層ネットワークにおける安定した学習を可能にし、バッチ正規化と比較して汎化ギャップを低減し、低曲率領域に初期化することで大きな学習率の使用を可能にする。
Residual networks (ResNet) and weight normalization play an important role in various deep learning applications. However, parameter initialization strategies have not been studied previously for weight normalized networks and, in practice, initialization methods designed for un-normalized networks are used as a proxy. Similarly, initialization for ResNets have also been studied for un-normalized networks and often under simplified settings ignoring the shortcut connection. To address these issues, we propose a novel parameter initialization strategy that avoids explosion/vanishment of information across layers for weight normalized networks with and without residual connections. The proposed strategy is based on a theoretical analysis using mean field approximation. We run over 2,500 experiments and evaluate our proposal on image datasets showing that the proposed initialization outperforms existing initialization methods in terms of generalization performance, robustness to hyper-parameter values and variance between seeds, especially when networks get deeper in which case existing methods fail to even start training. Finally, we show that using our initialization in conjunction with learning rate warmup is able to reduce the gap between the performance of weight normalized and batch normalized networks.
研究の動機と目的
- 重み正規化された深層ネットワークにおける形式的な初期化戦略の欠如に対処すること。
- 前向きおよび逆向きの伝搬における情報伝達の問題(爆発・消失)を防ぐ理論的裏付けのある初期化を考案すること。
- 重み正規化された深層ネットワークにおける学習安定性および汎化性能の向上。
- 重み正規化とバッチ正規化の間の性能ギャップを低減すること。
- CIFARデータセットを用い、深さやハイパーパramータを変化させた2,500以上の実験を通じて、手法の妥当性を検証すること。
提案手法
- 重み正規化ReLUネットワークに対する新しい初期化戦略を、平均場近似を用いて導出する。
- スケール因子(g)と単位ノルムの方向行列(Ŵ)による重みの再パrameter化を通じて、大きさと方向を分離する。
- 初期化時における隠れ層活性化ノルムが層間に安定する理論的条件を確立する。
- 前向伝搬および残差アーキテクチャの両方でノルムの一貫性を維持するための深さ依存の初期化スケーリングを提案する。
- 初期化時のヘッセ行列のスペクトルノルムを計算するためにパワー法を用い、曲率を分析する。
- 提案された初期化と学習率ウォームアップを組み合わせることで、さらなる性能向上を図る。
実験結果
リサーチクエスチョン
- RQ1重み正規化ReLUネットワークに対して、勾配の爆発または消失を防ぐ理論的裏付けのある初期化をどのように設計できるか?
- RQ2提案された初期化は、既存の代替手法と比較して、深層ネットワークにおける学習安定性および汎化性能を向上させるか?
- RQ3提案された初期化は、重み正規化とバッチ正規化の間の汎化ギャップを低減できるか?
- RQ4なぜ提案された初期化は、標準的な初期化手法と比較してより大きな学習率の使用を可能にするのか?
- RQ5提案された初期化は、ネットワークの深さ、ハイパーパramータの選択、ランダムシードの変動に対して頑健であるか?
主な発見
- 学習率ウォームアップと組み合わせた場合、CIFAR-10ではResNet-56で7.20%、ResNet-110で6.69%のテスト誤差を達成し、バッチ正規化の性能を同等または上回る。
- CIFAR-100では、カットアウトとウォームアップを適用した場合、ResNet-164で25.31%の誤差を達成し、バッチ正規化の25.52%にほぼ一致する。
- 初期化時のヘッセ行列の対数スペクトルノルムは、CIFAR-10で1.31、CIFAR-100で1.56を記録し、他の手法と比較して顕著に低く、曲率が小さいことを示している。
- 既存の初期化手法が学習を開始できなかった非常に深いネットワークにおいても、安定した学習が可能になる。
- 提案された初期化では、標準的なベースラインと比較して、異なるランダムシードにおける性能のばらつきが顕著に低減されている。
- 特に学習率ウォームアップと組み合わせた場合、重み正規化とバッチ正規化の間の汎化ギャップが削減される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。