[论文解读] Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift
本文识别出'方差偏移'——即训练与推理阶段激活值方差不匹配——是结合Dropout与批量归一化(BN)时性能下降的根本原因。本文提出两种解决方案:在BN层后应用Dropout,以及引入'Uout',一种使用均匀噪声的方差稳定型Dropout变体,两者均显著降低不稳定性,并在CIFAR与ImageNet基准测试中提升准确率。
This paper first answers the question "why do the two most powerful techniques Dropout and Batch Normalization (BN) often lead to a worse performance when they are combined together?" in both theoretical and statistical aspects. Theoretically, we find that Dropout would shift the variance of a specific neural unit when we transfer the state of that network from train to test. However, BN would maintain its statistical variance, which is accumulated from the entire learning procedure, in the test phase. The inconsistency of that variance (we name this scheme as "variance shift") causes the unstable numerical behavior in inference that leads to more erroneous predictions finally, when applying Dropout before BN. Thorough experiments on DenseNet, ResNet, ResNeXt and Wide ResNet confirm our findings. According to the uncovered mechanism, we next explore several strategies that modifies Dropout and try to overcome the limitations of their combination by avoiding the variance shift risks.
研究动机与目标
- 探究在深度神经网络中结合使用Dropout与批量归一化时性能下降的根本原因。
- 分析在不同网络状态下的训练与推理阶段之间激活值方差的差异。
- 通过改进的训练与推理策略,解决由方差偏移引起的不稳定性。
- 提出并验证两种实用解决方案,可在保持正则化优势的同时维持或提升模型准确率。
提出的方法
- 理论分析表明,推理阶段Dropout通过保留率p放大激活值方差,而BN则保持训练期间累积的固定移动方差,导致不匹配。
- 作者将这种训练与推理模式下方差行为不一致的现象定义为'方差偏移'。
- 他们提出将Dropout置于BN层之后,以避免网络前向传播早期阶段的方差扰动。
- 他们设计了'Uout',一种使用均匀噪声(r ~ U[-β, β])替代伯努利分布的改进型Dropout,将方差偏移从p降低至约3/(3+β²)。
- 理论推导证实,Uout的方差偏移率远比标准Dropout更接近1.0,从而最小化数值不稳定性。
- 在ResNet、DenseNet、ResNeXt与Wide ResNet上针对CIFAR10/100与ImageNet的大量实验验证了所提方法的有效性。
实验结果
研究问题
- RQ1为何在深层网络中结合使用Dropout与批量归一化常导致性能更差?
- RQ2当Dropout置于BN之前时,导致推理阶段不稳定的特定统计不一致性是什么?
- RQ3通过调整层顺序或修改Dropout机制,能否缓解性能下降?
- RQ4一种方差稳定的Dropout形式是否能降低方差偏移的影响并提升泛化能力?
主要发现
- 在所有BN层之后应用Dropout在ImageNet上始终能提升top-1准确率,其中ResNet-200的准确率从21.70%提升至21.48%,ResNeXt-101从20.40%提升至20.17%。
- Uout变体将方差偏移从标准Dropout的0.9降低至β=0.1时的约0.9967,显著稳定了推理过程。
- 在CIFAR100上,Uout在β=0.2时相较于标准Dropout在DenseNet与WRN中实现了0.3%的准确率提升,且在多次运行中均保持一致改进。
- 实验结果证实,方差偏移是导致不稳定的主因,因为当Dropout置于BN之前时,推理阶段的实际激活值方差会与BN的移动方差产生显著偏离。
- 所提出的解决方案——后置BN的Dropout与Uout——在计算开销可忽略的前提下,实现了稳定且一致的性能提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。