[論文レビュー] Mean Field Residual Networks: On the Edge of Chaos
本稿は、ランダムに初期化された残差ネットワークの平均場理論的分析を提示し、スキップ接続のおかげで、指数的ではなく多項式的(多くの場合、多項式的)な前向きおよび後ろ向きのダイナミクスを示す、混沌の縁で動作していることを示している。主な貢献は、初期化ハイパーパrameterからネットワーク性能を予測する理論的かつ実験的フレームワークを確立したことである。その結果、最適な分散は深さに依存し、Xavier や He 初期化のような従来の手法とは根本的に異なることが明らかになった。
We study randomly initialized residual networks using mean field theory and the theory of difference equations. Classical feedforward neural networks, such as those with tanh activations, exhibit exponential behavior on the average when propagating inputs forward or gradients backward. The exponential forward dynamics causes rapid collapsing of the input space geometry, while the exponential backward dynamics causes drastic vanishing or exploding gradients. We show, in contrast, that by adding skip connections, the network will, depending on the nonlinearity, adopt subexponential forward and backward dynamics, and in many cases in fact polynomial. The exponents of these polynomials are obtained through analytic methods and proved and verified empirically to be correct. In terms of the "edge of chaos" hypothesis, these subexponential and polynomial laws allow residual networks to "hover over the boundary between stability and chaos," thus preserving the geometry of the input space and the gradient information flow. In our experiments, for each activation function we study here, we initialize residual networks with different hyperparameters and train them on MNIST. Remarkably, our initialization time theory can accurately predict test time performance of these networks, by tracking either the expected amount of gradient explosion or the expected squared distance between the images of two input vectors. Importantly, we show, theoretically as well as empirically, that common initializations such as the Xavier or the He schemes are not optimal for residual networks, because the optimal initialization variances depend on the depth. Finally, we have made mathematical contributions by deriving several new identities for the kernels of powers of ReLU functions by relating them to the zeroth Bessel function of the second kind.
研究の動機と目的
- ランダムに初期化された残差ネットワークのダイナミクス的挙動を平均場理論を用いて理解すること。
- スキップ接続が、ヴァニラネットワークと比較して前向きおよび後ろ向き伝播ダイナミクスにどのように影響を与えるかを特定すること。
- 深さと非線形性に依存する最適な初期化分散を特定すること。
- 初期化ハイパーパrameterとテスト時の性能との間の予測的リンクを確立すること。
- ReLUに類似する非線形性に対して、ベッセル関数を含む新しい数学的恒等式を導出すること。
提案手法
- 入力ベクトル間のコサイン距離の層を跨ぐ変化を分析するために平均場理論を適用する。
- 差分方程式と固定点解析を用いて、活性化および勾配の流れのダイナミクスをモデル化する。
- ネットワークの深さと非線形性の観点から、勾配分散および入力距離の増大に関する正確な漸近的表現を導出する。
- 勾配爆発や入力距離といった初期化時のメトリクスに基づいて、テスト時の性能を予測する新しいフレームワークを導入する。
- 積分表現やベッセル関数を含む高度な数学的道具を用いて、α-ReLU非線形性を分析する。
- MNISTを用いた実験を通じて、さまざまな活性化関数とハイパーパrameterに対して理論的予測の妥当性を検証する。
実験結果
リサーチクエスチョン
- RQ1残差ネットワークにおけるスキップ接続は、ヴァニラ畳み込みネットワークと比較して、前向きおよび後ろ向きダイナミクスにどのように影響を与えるか?
- RQ2残差ネットワークにおける入力ベクトル間のコサイン距離の漸近的収束速度は何か?
- RQ3ランダム初期化にもかかわらず、なぜ残差ネットワークは標準的なネットワークよりも一般化性能に優れているのか?
- RQ4残差ネットワークの最適な初期化分散は深さと非線形性にどのように依存するか?
- RQ5訓練済みネットワークの性能は、初期化時に計算された性質から予測可能か?
主な発見
- 残差ネットワークでは、入力ベクトル間のコサイン距離の収束が指数的ではなく多項式的であることが示され、混沌の縁にあることが明らかになった。
- α < 1 の α-ReLU に対しては、勾配分散が深さに従って多項式的に増大するのみで、指数的爆発を回避する。
- 初期化時の勾配爆発や入力距離に関する理論的予測が、さまざまなアーキテクチャとハイパーパラメータにおいて、テスト時の性能を正確に予測できた。
- 残差ネットワークの最適な初期化分散は深さと非線形性に依存し、Xavier や He 初期化の仮定とは根本的に異なる。
- 本稿では、ReLU のべき乗のカーネルと第二種のゼロ次ベッセル関数を結ぶ新しい恒等式を導出した。
- 実験結果から、tanh 残差ネットワークでは、トレーニング可能性(勾配爆発)が性能を支配するのに対し、(α-)ReLU ネットワークでは表現力(入力距離)が主な要因であることが確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。