Skip to main content
QUICK REVIEW

[論文レビュー] A Mean Field Theory of Batch Normalization

Greg Yang, Jeffrey Pennington|arXiv (Cornell University)|Feb 21, 2019
Fault Detection and Control Systems参考文献 28被引用数 53
ひとこと要約

論文は、活性化の非線形性とバッチ統計を構造化された関数表現 V_phi(Σ) を介して結ぶ、平均場理論的フレームワークを導出する。

ABSTRACT

We develop a mean field theory for batch normalization in fully-connected feedforward neural networks. In so doing, we provide a precise characterization of signal propagation and gradient backpropagation in wide batch-normalized networks at initialization. Our theory shows that gradient signals grow exponentially in depth and that these exploding gradients cannot be eliminated by tuning the initial weight variances or by adjusting the nonlinear activation function. Indeed, batch normalization itself is the cause of gradient explosion. As a result, vanilla batch-normalized networks without skip connections are not trainable at large depths for common initialization schemes, a prediction that we verify with a variety of empirical simulations. While gradient explosion cannot be eliminated, it can be reduced by tuning the network close to the linear regime, which improves the trainability of deep batch-normalized networks without residual connections. Finally, we investigate the learning dynamics of batch-normalized networks and observe that after a single step of optimization the networks achieve a relatively stable equilibrium in which gradients have dramatically smaller dynamic range. Our theory leverages Laplace, Fourier, and Gegenbauer transforms and we derive new identities that may be of independent interest.

研究の動機と目的

  • バッチ正規化に関する平均場的視点を動機づけ、発展させる。
  • 活性化特性とバッチ統計に基づく functional V_phi(Σ) の表現を導出する。
  • 活性化関数を、バッチ正規化の影響の解析を容易にする形に分解する。
  • 平均場量を、 Σ と D を含む行列変換に結びつける。
  • degree-α 同次性を持つ活性化について、表現が成立する条件を検討する。

提案手法

  • φ: R -> R が degree-α 正同次であると仮定する。
  • φ を R\to{R}^* に制限した分解を、x ↦ a ρ_α(x) − b ρ_α(−x) として用いる。
  • V_φ(Σ) を c_α, D^α/2, J_φ(D^−1/2 Σ D) の項で導出する。
  • 解析を Σ ∈ S_B と、平均場設定に含まれる変換 D の項で表現する。

実験結果

リサーチクエスチョン

  • RQ1バッチ正規化は平均場的視点を用いてどのように解析できるか?
  • RQ2degree-α 同次の活性化に対する V_φ(Σ) の厳密な関数形は何か、そしてそれは活性化パラメータ a, b, ρ_α にどう依存するか?
  • RQ3 representation が V_φ(Σ) = c_α D^α/2 J_φ(D^−1/2 Σ D) を満たす条件は何か?
  • RQ4平均場レジームにおいて、バッチ統計 (Σ) と前処理行列 (D) はどのように相互作用するか?
  • RQ5この理論が、バッチ正規化されたネットワークにおける活性化の非線形性の影響を理解する上でどのような含意を持つか?

主な発見

  • V_φ(Σ) のバッチ正規化関数の平均場表現を確立した。
  • バッチ正規化の影響の解析を容易にする degree-α 正同次活性化の分解を導出した。
  • D と Σ を含む変換を通じて、活性化特性とバッチ統計を結び付けた。
  • V_φ(Σ) を c_α, D^α/2, および J_φ(D^−1/2 Σ D) に結びつける表現を提供した。
  • 検討された活性化クラスについて、表現が成立する条件を概説した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。