Skip to main content
QUICK REVIEW

[论文解读] Generalizing and Improving Weight Initialization.

Dan Hendrycks, Kevin Gimpel|arXiv (Cornell University)|Jul 8, 2016
Advanced Neural Network Applications参考文献 2被引用 3
一句话总结

该论文提出了一种经过校正的权重初始化方法,可考虑丢弃法(dropout)和非线性激活对激活方差的影响,从而提升深度神经网络的准确率。通过在推理阶段关闭丢弃法时,对批量归一化(Batch Normalization)的移动方差估计值进行调整,该方法在不使用数据增强的情况下,于CIFAR-10和CIFAR-100数据集上实现了当前最优(SOTA)性能。

ABSTRACT

We show how to adjust for the variance introduced by dropout with corrections to weight initialization and Batch Normalization, yielding higher accuracy. Though dropout can preserve the expected input to a neuron between train and test, the variance of the input differs. We thus propose a new weight initialization by correcting for the influence of dropout rates and an arbitrary nonlinearity's influence on variance through simple corrective scalars. Since Batch Normalization trained with dropout estimates the variance of a layer's incoming distribution with some inputs dropped, the variance also differs between train and test. After training a network with Batch Normalization and dropout, we simply update Batch Normalization's variance moving averages with dropout off and obtain state of the art on CIFAR-10 and CIFAR-100 without data augmentation.

研究动机与目标

  • 解决由于深度神经网络中使用丢弃法而导致训练与推理阶段激活方差不匹配的问题。
  • 通过引入校正标量,系统性地改进权重初始化,以考虑丢弃率和非线性激活的影响。
  • 通过在推理阶段关闭丢弃法时重新估计其移动方差统计量,提升批量归一化在丢弃法下的性能。
  • 在不使用数据增强的情况下,实现CIFAR-10和CIFAR-100数据集上的当前最优准确率。

提出的方法

  • 提出一种新的权重初始化方案,通过应用校正标量来补偿由丢弃法和特定非线性激活所引入的方差变化。
  • 基于丢弃率和非线性激活的二阶矩推导出缩放因子,以稳定各层之间的激活方差。
  • 通过在推理阶段关闭丢弃法时重新估计移动方差统计量,对批量归一化进行改进,确保归一化的一致性。
  • 将校正后的初始化方法与方差重估计方法应用于在CIFAR-10和CIFAR-100上训练的标准卷积神经网络。
  • 采用一种简单、基于理论分析的校正方法,无需额外超参数或训练过程修改。
  • 在标准基准数据集上验证该方法,结果表明其在多种网络架构上均能稳定提升准确率。

实验结果

研究问题

  • RQ1与推理阶段相比,训练阶段中丢弃法如何影响激活的方差?
  • RQ2是否可以系统性地校正权重初始化,以考虑丢弃法和非线性激活的影响?
  • RQ3在启用丢弃法时,方差估计的偏差如何影响批量归一化的性能?
  • RQ4在推理阶段改进方差估计是否能提升测试准确率,而无需使用数据增强?
  • RQ5所提出的校正方法是否能在CIFAR-10和CIFAR-100等标准视觉基准数据集上实现SOTA结果?

主要发现

  • 所提出的权重初始化方法通过校正由丢弃法和非线性激活引起的方差变化,显著提升了测试准确率。
  • 在推理阶段关闭丢弃法时,对批量归一化的移动方差估计值进行更新,可带来更好的泛化性能。
  • 该方法在不使用数据增强的情况下,于CIFAR-10和CIFAR-100数据集上实现了当前最优性能。
  • 该校正方法在不同网络架构上均有效,且无需引入额外超参数。
  • 性能提升源于在测试阶段使用的方差估计值与在丢弃法下真实激活方差的期望值更加一致。
  • 该方法简单、理论基础扎实,可直接应用于现有模型,仅需极少修改。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。