[论文解读] A Mean Field Theory of Batch Normalization
该论文为批量归一化建立了一个均场理论框架,推导出通过结构化泛函 V_phi(Σ) 将激活非线性与批量统计联系起来的表述。
We develop a mean field theory for batch normalization in fully-connected feedforward neural networks. In so doing, we provide a precise characterization of signal propagation and gradient backpropagation in wide batch-normalized networks at initialization. Our theory shows that gradient signals grow exponentially in depth and that these exploding gradients cannot be eliminated by tuning the initial weight variances or by adjusting the nonlinear activation function. Indeed, batch normalization itself is the cause of gradient explosion. As a result, vanilla batch-normalized networks without skip connections are not trainable at large depths for common initialization schemes, a prediction that we verify with a variety of empirical simulations. While gradient explosion cannot be eliminated, it can be reduced by tuning the network close to the linear regime, which improves the trainability of deep batch-normalized networks without residual connections. Finally, we investigate the learning dynamics of batch-normalized networks and observe that after a single step of optimization the networks achieve a relatively stable equilibrium in which gradients have dramatically smaller dynamic range. Our theory leverages Laplace, Fourier, and Gegenbauer transforms and we derive new identities that may be of independent interest.
研究动机与目标
- 用均场视角动机并发展关于批量归一化的理论。
- 推导在激活性质和批量统计方面的 V_φ(Σ) 的泛函表示。
- 将激活函数分解成有助于分析批量归一化效应的形式。
- 将均场量与涉及 Σ 与 D 的矩阵变换相联系。
- 探究在度-α 同态激活下,该表示成立的条件。
提出的方法
- 假设 φ: R -> R 为度-α 正齐次。
- 将 φ 在 R\to{R}^* 上的分解写成 x ↦ a ρ_α(x) − b ρ_α(−x)。
- 推导 V_φ(Σ) 以 c_α, D^α/2, J_φ(D^−1/2 Σ D) 表示。
- 用在均场设定中涉及的 Σ ∈ S_B 和变换 D 对分析进行表达。
实验结果
研究问题
- RQ1如何通过均场视角分析批量归一化?
- RQ2对于度-α 同态激活,V_φ(Σ) 的精确泛函形式是什么,它如何依赖于激活参数 a、b 和 ρ_α?
- RQ3在什么条件下 V_φ(Σ) = c_α D^α/2 J_φ(D^−1/2 Σ D) 的表示成立?
- RQ4批量统计(Σ)与预处理矩阵(D)在均场区间如何相互作用?
- RQ5该理论对理解批量归一化网络中的激活非线性有何影响?
主要发现
- 为批量归一化泛函 V_φ(Σ) 建立了均场表示。
- 推导出度-α 正齐次激活的分解,便于分析批量归一化效应。
- 通过涉及 D 与 Σ 的变换,将激活性质与批量统计联系起来。
- 给出将 V_φ(Σ) 与 c_α、D^α/2、以及 J_φ(D^−1/2 Σ D) 相关的表达式。
- 概述在所考虑的激活类下,该表示成立的条件。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。