Skip to main content
QUICK REVIEW

[論文レビュー] Which Neural Net Architectures Give Rise To Exploding and Vanishing Gradients?

Boris Hanin|arXiv (Cornell University)|Jan 11, 2018
Neural Networks and Applications被引用数 138
ひとこと要約

この論文は、ランダムに初期化された全結合 ReLU ネットワークにおける勾配のフラクチュエーションを厳密に分析し、入力-出力ヤコビ行列のエントリの分散が、隠れ層幅の逆数の和のアーキテクチャ依存項とともに指数関数的に増大することを示す。有限幅の結果とアニー卜/クエンチ EVGP 定義を提供する。

ABSTRACT

We give a rigorous analysis of the statistical behavior of gradients in a randomly initialized fully connected network N with ReLU activations. Our results show that the empirical variance of the squares of the entries in the input-output Jacobian of N is exponential in a simple architecture-dependent constant beta, given by the sum of the reciprocals of the hidden layer widths. When beta is large, the gradients computed by N at initialization vary wildly. Our approach complements the mean field theory analysis of random networks. From this point of view, we rigorously compute finite width corrections to the statistics of gradients at the edge of chaos.

研究の動機と目的

  • 深い全結合 ReLU ネットワークにおける EVGP 問題を動機づけ、トレーニングダイナミクスとアーキテクチャを結びつける。
  • ヤコビ行列モーメントの有限深/有限幅公式を導出し、重要なアーキテクチャ統計量を特定する。
  • アニーリングおよびクエンチの両観点から EVGP の発生を特徴づけ、層幅分布と関連づける。
  • 初期化時の EVGP を軽減するためのアーキテクチャ設計の指針を提供する。

提案手法

  • ランダムな重みとバイアスを持つ完全連結 ReLU ネットワークにおける入力-出力ヤコビ行列成分の結合偶数モーメントを、有限深/有限幅で正確に導出する。
  • 勾配平方の経験的分散が β = 隠れ層の和 1/n_j に対して指数関数的であることを示す。
  • 独立初期化かつ正しい分散スケーリングの下では、アーキテクチャのみが EVGP の発生に影響することを証明する(定義1)。
  • アニーリングEVGPとクエンチEVGP の同値性を示し、EVGP を回避する ⇔ Σ_j 1/n_j < ∞ を証明する。
  • カオスの端部での勾配統計の有限幅補正を計算し、平均場理論と関連づける。

実験結果

リサーチクエスチョン

  • RQ1ReLU ネットワークの初期化時に、深さと隠れ層幅の組み合わせはどのように EVGP に影響するか?
  • RQ2有限幅・深さは入力-出力ヤコビ行列の統計にどう影響するか?
  • RQ3EVGP は重み/バイアス分布の正確な分布に依存するか、それとも適切な初期化下のアーキテクチャにのみ依存するか?
  • RQ4初期化時に勾配分散を最小化するようなアーキテクチャ上の選択肢は何か?
  • RQ5有限幅ネットワークにおけるアニーリングとクエンチの EVGP の関係はどうなるか?

主な発見

  • 入力-出力ヤコビ行列エントリの平方の経験的分散は β = Σ_j 1/n_j に対して指数関数的である。
  • β が大きい場合に EVGP が発生し、分散の増大は重み分布よりもアーキテクチャに関連する(正しい分散スケーリングの下で)。
  • Σ_j 1/n_j < ∞ ならば、アーキテクチャはアニーリング・クエンチ双方の EVGP を回避する;そうでなければ EVGP が予想される。
  • 固定入力について、E[Z_pq^2] = 1/n_0 であり、高次モーメントは Σ_j 1/n_j に対して指数関数的にスケールする。モーメントは経路ベースの組合せ(定理3)によって与えられる。
  • 平均場型不等式の等号性は隠れ幅が等しい場合に達成され、アーキテクチャの対称性が安定性に有利であることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。