[论文解读] On weight initialization in deep neural networks
本文开发了针对非线性激活的权重初始化理论,推导适用于可微激活的一般策略,并证明 RELU 的 He 初始化,同时解释为什么 Xavier 在 RELU 下可能失效。
A proper initialization of the weights in a neural network is critical to its convergence. Current insights into weight initialization come primarily from linear activation functions. In this paper, I develop a theory for weight initializations with non-linear activations. First, I derive a general weight initialization strategy for any neural network using activation functions differentiable at 0. Next, I derive the weight initialization strategy for the Rectified Linear Unit (RELU), and provide theoretical insights into why the Xavier initialization is a poor choice with RELU activations. My analysis provides a clear demonstration of the role of non-linearities in determining the proper weight initializations.
研究动机与目标
- 把 Xavier 风格的方差传播推广到在 0 可微的激活上。
- 推导适用于可微激活的权重初始化策略。
- 给出 RELU 的 He 初始化的严格证明。
- 解释为何 Xavier 初始化在 RELU 下会失效。
- 讨论激活分布对前向传播动态的影响。
提出的方法
- 对深度网络的前向传播进行建模,使用高斯初始化的权重和独立同分布的输入。
- 对在 0 可微的激活在 0 点附近进行泰勒展开,以关联各层方差。
- Derive s_q^2 recursion: s_{m+1}^2 ≈ (g'(0))^2 N v^2 (s_m^2 + μ_m^2).
- Obtain v^2 = 1 / (N (g'(0))^2 (1+g(0)^2)) for differentiable activations at 0.
- Specialize to tanh and sigmoid to show Xavier-like results (v^2 ≈ 1/N for tanh, v^2 ≈ ~3.6/√N for sigmoid).
- For non-differentiable activations (RELU), compute μ and s^2 to show v^2 ≈ 2/N (He initialization).
实验结果
研究问题
- RQ1如何在具有非线性激活的深度网络中初始化权重以保持层输入方差的稳定性?
- RQ2对于可微激活和对于 RELU,合适的初始化尺度分别是什么?
- RQ3为何在 RELU 下 Xavier 初始化会失效,He 初始化如何 Remedy?
- RQ4非线性对层预激活和激活的分布及方差有何影响?
- RQ5是否存在一个统一框架将 Xavier 和 He 初始化在不同激活类型之间联系起来?
主要发现
- 对在 0 可微的激活,通用初始化公式 v^2 = 1 / (N (g'(0))^2 (1+g(0)^2))。
- 对于 tanh (g(0)=0, g'(0)=1),v^2 ≈ 1/N,恢复 Xavier 初始化。
- 对于 sigmoid (g(0)=0.5, g'(0)=1/4),v^2 ≈ 3.6/√N。
- 对于 RELU(在 0 不可微),He 初始化通过方差维持给出 v^2 ≈ 2/N。
- Xavier 初始化会导致 RELU 的较深层方差消失,解释在非常深的网络中的收敛问题。
- 30 层网络的例子支持在 RELU 下,He 初始化比 Xavier 更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。