Skip to main content
QUICK REVIEW

[论文解读] Non-Gaussianity of Stochastic Gradient Noise

Abhishek Panigrahi, Raghav Somani|arXiv (Cornell University)|Oct 21, 2019
Stochastic Gradient Optimization Techniques参考文献 20被引用 23
一句话总结

本文研究了深度学习训练过程中随机梯度噪声(SGN)的分布。通过在多种架构和数据集上对SGN投影进行统计高斯性检验,发现当批量大小≥256时,SGN在训练初期近似服从高斯分布——这与先前认为其分布稳定的(重尾)观点相矛盾。结果表明,中心极限定理(CLT)在大规模下适用于SGN,支持基于高斯的随机微分方程(SDE)对SGD的近似。

ABSTRACT

What enables Stochastic Gradient Descent (SGD) to achieve better generalization than Gradient Descent (GD) in Neural Network training? This question has attracted much attention. In this paper, we study the distribution of the Stochastic Gradient Noise (SGN) vectors during the training. We observe that for batch sizes 256 and above, the distribution is best described as Gaussian at-least in the early phases of training. This holds across data-sets, architectures, and other choices.

研究动机与目标

  • 研究随机梯度下降(SGD)在深度神经网络训练过程中随机梯度噪声(SGN)的统计分布。
  • 检验SGN是否服从高斯分布或重尾分布(如稳定分布),特别是与批量大小和训练阶段的关系。
  • 通过严格的统计检验,解决先前研究中关于SGN更宜建模为高斯分布还是α稳定分布的矛盾主张。
  • 评估中心极限定理(CLT)和广义中心极限定理(GCLT)在深度学习优化背景下的有效性。
  • 明确SGN可近似为高斯分布的条件,从而支持或质疑基于SDE的SGD模型。

提出的方法

  • 作者使用Shapiro–Wilk检验和Anderson–Darling检验对在训练过程中分阶段收集的1,000个独立SGN向量进行高斯性统计检验。
  • 对每个SGN向量,将其投影到1,000个随机单位向量上,并对所得标量投影应用高斯性检验。
  • 将检验结果与合成的高斯分布和α稳定分布(SαS)的结果进行对比,以校准检测效能。
  • 实验在多种模型(3层全连接网络、AlexNet、ResNet18、VGG16)、数据集(CIFAR10、MNIST)和批量大小(32、256、4096)上进行。
  • 学习率在10⁻¹、10⁻²、10⁻³之间变化,训练采用固定学习率的SGD优化交叉熵损失。
  • 研究分析了SGN在训练各周期中的行为,重点关注早期与后期训练阶段。

实验结果

研究问题

  • RQ1在批量大小较大时,SGD中的随机梯度噪声(SGN)是否在训练初期近似服从高斯分布?
  • RQ2SGN的分布如何随批量大小变化?其是否支持中心极限定理(CLT)或广义中心极限定理(GCLT)?
  • RQ3为何先前研究中关于SGN服从重尾α稳定分布的主张与本研究中观察到的高斯性相矛盾?
  • RQ4高斯性检验对SGN的非高斯性检测能力如何?在不同分布假设下其可靠性如何?
  • RQ5先前研究中使用的α稳定分布估计器(如尾指数)在典型深度学习设置下的假设是否成立?

主要发现

  • 在批量大小为256及以上时,所有测试的架构和数据集中,SGN在训练初期最宜描述为高斯分布。
  • 在批量大小为4096时,SGN在整个训练过程中仍近似服从高斯分布,这由Shapiro–Wilk检验和Anderson–Darling检验的稳定p值所证实。
  • 在批量大小为32时,SGN始终为非高斯分布,所有方向和训练阶段的统计检验均拒绝其服从高斯分布。
  • 在中间批量大小256时,SGN在训练初期为高斯分布,但后期变为非高斯分布,表明噪声分布存在转变。
  • 本研究识别出先前研究中使用的α稳定分布估计器存在缺陷:其假设分量独立同分布且在真实稳定性下有效,而这些假设在过参数化的深度学习中均被违反。
  • 结果与先前基于尾指数声称SGN即使在大批次下也服从稳定分布的观点相矛盾,表明当批量大小足够大时,在CLT条件下高斯性会自然出现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。