[论文解读] Batch Normalization Biases Deep Residual Networks Towards Shallow Paths
本文揭示了批量归一化(BN)通过在初始化时将残差分支的缩放因子近似为 1/√depth,使深层残差网络能够训练,从而保持网络初始函数接近恒等映射。这一洞见催生了一种新型初始化方案,可在无需BN的情况下训练深层残差网络,表明BN的主要优势在于其带来的初始化稳定性,而非优化速度提升。
Batch normalization dramatically increases the largest trainable depth of residual networks, and this benefit has been crucial to the empirical success of deep residual networks on a wide range of benchmarks. We show that this key benefit arises because, at initialization, batch normalization downscales the residual branch relative to the skip connection, by a normalizing factor on the order of the square root of the network depth. This ensures that, early in training, the function computed by normalized residual blocks in deep networks is close to the identity function (on average). We use this insight to develop a simple initialization scheme that can train deep residual networks without normalization. We also provide a detailed empirical study of residual networks, which clarifies that, although batch normalized networks can be trained with larger learning rates, this effect is only beneficial in specific compute regimes, and has minimal benefits when the batch size is small.
研究动机与目标
- 理解为何批量归名化能够支持更深的残差网络。
- 探究BN通过初始化效应在稳定训练中的作用。
- 开发一种可复制BN优势的无BN初始化方案。
- 阐明学习率与批量大小对残差网络训练动态的影响。
提出的方法
- 提出一种新型初始化方案,通过将残差分支按 1/√depth 缩放,以在初始化阶段模拟BN的效果。
- 分析在BN存在下,残差块在初始化时的期望输出,表明其近似于恒等函数。
- 通过实验对比BN与非BN网络在有无该初始化方案下的训练动态。
- 调整学习率与批量大小,研究其与BN及训练稳定性之间的相互作用。
- 使用统计分析量化残差块在初始化时输出与恒等映射的偏离程度。
- 在CIFAR-10和ImageNet等标准基准上验证结果。
实验结果
研究问题
- RQ1为何批量归一化能够支持更深的残差网络?
- RQ2批量归一化如何影响残差块在初始化时计算的初始函数?
- RQ3能否通过合适的初始化实现与BN相当的训练稳定性,而无需使用BN?
- RQ4BN带来的大学习率优势是否在不同批量大小下依然显著?
- RQ5初始化在深层残差网络成功中的作用是什么?
主要发现
- 批量归一化在初始化时将近似 1/√depth 的权重分配给残差分支,通过使网络初始函数接近恒等映射,从而实现训练稳定。
- 所提出的初始化方案可在无需BN的情况下训练深层残差网络,并达到与BN相当的性能。
- 当批量大小较小时,BN带来的大学习率优势几乎可以忽略,表明其在优化方面优势有限。
- BN的主要贡献在于其引发的初始化稳定性,而非更快收敛或更优优化。
- 实证结果表明,无BN但采用新初始化的网络在CIFAR-10和ImageNet上的性能与BN相当。
- 本研究阐明,BN的成功主要归因于其初始化效应,而非训练过程中自适应的批量统计。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。