[论文解读] Random Walks: Training Very Deep Nonlinear Feed-Forward Networks with Smart Initialization.
本文通过将梯度范数演化建模为随机游走,提出了一种用于训练非常深的前馈网络的智能初始化方案。通过调整权重矩阵以平衡对数梯度范数的随机游走,该方法确保了梯度范数随深度的平方根增长,从而通过增加宽度而非深度来缓解梯度消失问题。
Training very deep networks is an important open problem in machine learning. One of many difficulties is that the norm of the back-propagated error gradient can grow or decay exponentially. Here we show that training very deep feed-forward networks (FFNs) is not as difficult as previously thought. Unlike when back-propagation is applied to a recurrent network, application to an FFN amounts to multiplying the error gradient by a different random matrix at each layer. We show that the successive application of correctly scaled random matrices to an initial vector results in a random walk of the log of the norm of the resulting vectors, and we compute the scaling that makes this walk unbiased. The variance of the random walk grows only linearly with network depth and is inversely proportional to the size of each layer. Practically, this implies a gradient whose log-norm scales with the square root of the network depth and shows that the vanishing gradient problem can be mitigated by increasing the width of the layers. Mathematical analyses and experimental results using stochastic gradient descent to optimize tasks related to the MNIST and TIMIT datasets are provided to support these claims. Equations for the optimal matrix scaling are provided for the linear and ReLU cases.
研究动机与目标
- 解决非常深的前馈网络中梯度消失或爆炸的问题。
- 理解在具有随机权重矩阵的深层前馈网络中,反向传播过程中梯度范数的演化方式。
- 推导出最优权重缩放方法,使梯度的对数范数执行无偏随机游走,从而稳定梯度流动。
- 表明增加层宽而非深度,是缓解梯度消失问题的关键。
提出的方法
- 将反向传播的梯度建模为一系列随机权重矩阵的乘积,每个矩阵均进行缩放以控制方差。
- 将梯度向量的对数范数分析为随机游走,并推导出无偏游走的条件。
- 计算线性网络和ReLU激活网络中权重矩阵的最优缩放因子,以稳定随机游走。
- 利用随机游走的方差(随深度线性增长,随层宽反比减小)指导初始化。
- 基于随机游走的特性,推导出线性和ReLU情况下最优缩放的解析表达式。
- 使用随机梯度下降在MNIST和TIMIT任务上验证该方法,梯度范数通过实测数据进行验证。
实验结果
研究问题
- RQ1在具有随机权重的非常深的前馈网络中,反向传播梯度的范数如何演化?
- RQ2如何对权重矩阵进行缩放,才能使梯度的对数范数执行无偏随机游走?
- RQ3梯度范数随机游走的方差如何依赖于网络深度和层宽?
- RQ4通过控制梯度方差,增加层宽是否能稳定非常深网络的训练?
- RQ5线性和ReLU激活的深层网络的最优初始化尺度是什么,以防止梯度消失或爆炸?
主要发现
- 反向传播梯度的对数范数执行一个方差随网络深度线性增长的随机游走。
- 最优权重缩放确保了随机游走为无偏,从而防止梯度范数系统性衰减或爆炸。
- 随机游走的方差与每层宽度成反比,意味着更宽的层能稳定梯度流动。
- 因此,梯度的期望幅值随网络深度的平方根增长,而非指数增长。
- 在MNIST和TIMIT上的实证结果表明,所提出的初始化方法能够实现非常深网络的稳定训练。
- 推导出的线性和ReLU网络的缩放规则在实践中被证明有效,梯度范数在数百层中保持稳定。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。