[論文レビュー] How to Start Training: The Effect of Initialization and Architecture
本論文は ReLU ネットワークにおける初期訓練の2つの失敗モードを厳密に分析し、適切な初期化とアーキテクチャ—特に ResNets の場合—がこれらの失敗を防ぎ、より深いネットワークの訓練を可能にすることを示します。理論的な結果と実証的検証を、全結合、畳み込み、および残差アーキテクチャ全体で提供します。
We identify and study two common failure modes for early training in deep ReLU nets. For each we give a rigorous proof of when it occurs and how to avoid it, for fully connected and residual architectures. The first failure mode, exploding/vanishing mean activation length, can be avoided by initializing weights from a symmetric distribution with variance 2/fan-in and, for ResNets, by correctly weighting the residual modules. We prove that the second failure mode, exponentially large variance of activation length, never occurs in residual nets once the first failure mode is avoided. In contrast, for fully connected nets, we prove that this failure mode can happen and is avoided by keeping constant the sum of the reciprocals of layer widths. We demonstrate empirically the effectiveness of our theoretical results in predicting when networks are able to start training. In particular, we note that many popular initializations fail our criteria, whereas correct initialization and architecture allows much deeper networks to be trained.
研究の動機と目的
- 深い ReLU ネットワークにおける初期訓練を妨げる失敗モードを特定する(FM1 および FM2)。
- FC, Conv, および ResNet アーキテクチャで FM1 および FM2 を回避する初期化とアーキテクチャに関する厳密な条件を提供する。
- 正しい初期化とアーキテクチャが訓練可能性と深さの予測にどのように寄与するかを経験的に示す。
- 全結合、畳み込み、および残差ネットワーク間の挙動を比較し、ResNets の経験的訓練成功を説明する。
提案手法
- FM1(深さに対して平均活性長が指数関数的に増減する)と FM2(層間の活性長の分散が指数関数的に増加する)という2つの失敗モードを定義・分析する。
- FM1 は分散が 2/fan-in の対称分布で重みを初期化し(ResNet の残差モジュールをスケーリングすることで)回避可能であることを証明する。
- FM2 は ResNet では FM1 を回避した後には発生しないことを示す一方、全結合ネットでは FM2 がアーキテクチャに依存し、層幅の和の逆数の総和によって決まる。
- FC、Conv、ResNet アーキテクチャにおいて FM1 および FM2 が発生する、または回避される条件を記述する定理(Theorem 1–Theorem 6)を導出・明示する。
- 畳み込みアーキテクチャへの拡張として、ファンインを conv 層の適切なファンインに置換し、同様の挙動を経験的に示す。
実験結果
リサーチクエスチョン
- RQ1深い ReLU ネットワークで FM1 および FM2 が発生する初期化とアーキテクチャ条件は何か。
- RQ2FC、Conv、ResNet アーキテクチャは FM2 の発生傾向がどのように異なり、深いネットワークの訓練可能性とどのように関連するか。
- RQ3残差モジュールと重み分散の適切なスケーリングは、はるかに深い ResNet の訓練を可能にするか。
- RQ4初期化時の経験的な活性長は、アーキテクチャ間で早期訓練の性能を信頼性をもって予測するか。
主な発見
- 対称分布で分散が 2/fan-in の重みを初期化することで、FC および Conv nets における平均活性長の爆発/消失(FM1)を防ぐ。
- ResNet において残差モジュールを適切にスケーリングすることで FM1 を防ぎ、FM1 が回避されれば FM2 は残差ネットでは発生し得ない(Corollary/Theorem 6)。
- 全結合および畳み込みネットでは FM2 はアーキテクチャに依存し、幅を広くするか深さとともに幅が線形に増加することで緩和される。一定幅のネットでは depth に対して幅をほぼ線形に増やす必要が FM2 を回避する。
- 残差ネットでは、FM1 が回避された後は FM2 はアーキテクチャにほぼ依存しない;適切に重み付けされた残差モジュールは深さを越えて安定した活性長を保証する。
- 経験的には、正しい分散とアーキテクチャで初期化されたネットはより深い深さでの訓練に成功を示す一方、一般的な初期化はしばしば FM1 に失敗する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。