[论文解读] The Shattered Gradients Problem: If resnets are the answer, then what is the question?
本文定义并分析深度整流网络中的“碎裂梯度”问题,指出在前向传递网络中,梯度随深度加深而变成类似白噪声;而跳跃连接(ResNets)能保持梯度结构;此外还提出 LL-init 用以在无跳跃连接的情况下训练非常深的网络。
A long-standing obstacle to progress in deep learning is the problem of vanishing and exploding gradients. Although, the problem has largely been overcome via carefully constructed initializations and batch normalization, architectures incorporating skip-connections such as highway and resnets perform much better than standard feedforward architectures despite well-chosen initialization and batch normalization. In this paper, we identify the shattered gradients problem. Specifically, we show that the correlation between gradients in standard feedforward networks decays exponentially with depth resulting in gradients that resemble white noise whereas, in contrast, the gradients in architectures with skip-connections are far more resistant to shattering, decaying sublinearly. Detailed empirical evidence is presented in support of the analysis, on both fully-connected networks and convnets. Finally, we present a new "looks linear" (LL) initialization that prevents shattering, with preliminary experiments showing the new initialization allows to train very deep networks without the addition of skip-connections.
研究动机与目标
- 推动研究超越梯度消失/梯度爆炸的非常深的整流网络中的梯度结构。
- 表征前馈网络与带跳跃连接的架构中,梯度相关性随深度退化的方式。
- 在初始化时对全连接网络和卷积网络的梯度结构进行实证演示。
- 提出初始化和结构策略(LL-init、批量归一化、β-重标定)以缓解碎裂现象。
- 为在梯度质量不牺牲的前提下训练极深网络提供实际指导。
提出的方法
- 构建一个每个隐藏层包含 200 个整流神经元的最小标量对标量网络,以隔离梯度行为。
- 将梯度作为输入一维网格的函数进行分析,并在深度上计算梯度协方差和自相关。
- 推导描述前馈网络和 ResNets 中梯度协方差随深度衰减的理论结果(定理)。
- 在 CIFAR-10/真实数据上使用批量归一化和不同深度,对全连接网络和卷积网络的梯度结构进行实证验证。
- 引入 looks-like-linear 初始化(LL-init)和正交卷积核,并在非常深的网络上进行测试。
- 比较有无跳跃连接、以及有无批量归一化和β重标定的梯度结构差异。
实验结果
研究问题
- RQ1标准前馈整流网络中梯度的相关结构随深度的变化如何,与残差网络相比?
- RQ2跳跃连接(ResNets)是否在初始化和早期训练阶段保持梯度结构并防止碎裂?
- RQ3批量归一化和β重标定在深度网络的梯度相关结构中起到什么作用?
- RQ4一种避免碎裂的初始化策略(LL-init)能否在无跳跃连接的情况下实现对非常深网络的训练?
- RQ5在真实数据集上观察到的梯度现象是否从全连接网络推广到卷积网络?
主要发现
- 随着深度增加,深度前馈整流网络中的梯度呈现类似白噪声的特征,梯度相关性随深度呈指数衰减。
- ResNets中的跳跃连接显著减缓梯度白化,保持结构,使得训练极深网络成为可能。
- 批量归一化改变梯度结构:它使神经元保持激活并控制的空间激活模式,从而影响梯度相关性。
- ResNets 中的 β 重标定(β 取值在 [0.1,0.3])进一步减少梯度白化,导致梯度相关性随深度衰减变慢。
- looks-like-linear 初始化(LL-init)可以在无跳跃连接的情况下训练非常深的网络,在 CIFAR-10 实验中达到与 ResNets 相当的性能。
- 在 CIFAR-10 和卷积网络上的实证结果表明 ResNets 中的梯度白化得到缓解,且带正交核的 LL-init 能训练超出标准初始化允许的深度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。