[論文レビュー] All you need is a good init
本稿では、層ごとの出力分散を1に正規化するシンプルな2段階手法であるLayer-Sequential Unit-Variance (LSUV)初期化を提案する。まず正規直交行列を用いて重みを初期化し、その後各層の出力分散を1に正規化する。この手法により、標準的なSGDを用いた非常に深いネットワークの学習が可能となり、FitNets や Highway Networks よりも複雑な手法に匹敵するか、それ以上の精度をMNIST、CIFAR、ImageNetで達成する。収束速度も速い。
Layer-sequential unit-variance (LSUV) initialization - a simple method for weight initialization for deep net learning - is proposed. The method consists of the two steps. First, pre-initialize weights of each convolution or inner-product layer with orthonormal matrices. Second, proceed from the first to the final layer, normalizing the variance of the output of each layer to be equal to one. Experiment with different activation functions (maxout, ReLU-family, tanh) show that the proposed initialization leads to learning of very deep nets that (i) produces networks with test accuracy better or equal to standard methods and (ii) is at least as fast as the complex schemes proposed specifically for very deep nets such as FitNets (Romero et al. (2015)) and Highway (Srivastava et al. (2015)). Performance is evaluated on GoogLeNet, CaffeNet, FitNets and Residual nets and the state-of-the-art, or very close to it, is achieved on the MNIST, CIFAR-10/100 and ImageNet datasets.
研究の動機と目的
- 標準的な確率的勾配降下法(SGD)を用いた非常に深いニューラルネットワークの訓練を、重み初期化が不十分であるために失敗するという課題に対処すること。
- 複雑な訓練スキームや補助ネットワークを必要としない、シンプルで汎用的かつ効率的な初期化手法を開発すること。
- 単純な分散正規化手順が、FitNets や Highway Networks といった洗練された深層学習アーキテクチャに匹敵するか、それを上回る性能を示すかどうかを評価すること。
- さまざまな活性化関数とネットワークアーキテクチャにおいて、初期化が学習速度と最終的な精度に与える影響を調査すること。
- 特にImageNetのような大規模データセットにおいて、LSUV初期化とバッチ正規化の収束速度および最終的性能を比較すること。
提案手法
- 信号伝播の安定性を確保するため、すべての畳み込み層および全結合層の重みを正規直交行列を用いて事前初期化する。
- 入力から出力へ順番に層を処理し、小さなバッチデータを用いた順方向伝搬により、各層の活性化分散を正確に1に正規化する。
- 学習開始前に一度だけ分散正規化を適用するため、1回の前処理ステップとして実装される。
- 正規直交重み行列の生成に特異値分解(SVD)を用い、初期重み分布が各層で単位分散を維持することを保証する。
- 正規直交初期化と層ごとの分散正規化を組み合わせることで、勾配の流れを安定化させ、消失/爆発勾配を防止する。
- 追加の正規化層や複雑な最適化スキームを用いずに、標準的なSGDでネットワークを学習する。
実験結果
リサーチクエスチョン
- RQ1シンプルで1回限りの重み初期化手順により、標準的なSGDを用いた非常に深いネットワークのエンドツーエンド学習が可能になるか?
- RQ2LSUV初期化は、FitNets や Highway Networks といった複雑な深層学習アーキテクチャと比較して、性能を上回るか、同等の性能を発揮するか?
- RQ3特にImageNetのような大規模データセットにおいて、LSUV初期化はバッチ正規化と比較して収束速度と最終的精度の点で優れているか?
- RQ4ReLU、maxout、tanh などの異なる活性化関数に対しても、LSUVは効果的に機能するか?
- RQ5LSUVは、学習中に計算オーバーヘッドを追加せずに、学習時間を短縮し収束を改善できるか?
主な発見
- LSUV初期化は、MNIST、CIFAR-10/100、ImageNetで最先端またはそれらに近いテスト精度を達成し、FitNets や Highway Networks よりも優れた性能を示した。
- GoogLeNetでは、LSUV初期化ネットワークが収束が早く、最終的なトップ-1精度が68.0%に達した(元の初期化では67.2%)という一貫した改善を示した。
- CaffeNetでは、初期の平坦損失フェーズが0.5エポックから0.05エポックに短縮されたが、最終的な精度は元のネットワークに1.3%下回った。その理由は未だ不明である。
- LSUV初期化は、壁時計時間の観点からバッチ正規化と同等の速度であり、CIFAR-10ではBNと同等の性能を達成したが、1回の反復あたり30%の計算オーバーヘッドを回避した。
- ReLU、maxout、tanh などのさまざまな活性化関数に対して、LSUVは一貫した性能向上を示し、ロバストであることがわかった。
- LSUV初期化の計算コストは非常に低く、CaffeNetでは最大3.5分にとどまり、学習時間に比べて無視できるほど小さい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。