Skip to main content
QUICK REVIEW

[论文解读] The Anisotropic Noise in Stochastic Gradient Descent: Its Behavior of Escaping from Sharp Minima and Regularization Effects

Zhanxing Zhu, Jingfeng Wu|ePrints Soton (University of Southampton)|Mar 1, 2018
Stochastic Gradient Optimization Techniques被引用 94
一句话总结

论文分析了与损失曲率对齐的 SGD 各向异性噪声如何增强从尖锐极小点的逃逸并带来正则化效益,优于各向同性扩散的类比。

ABSTRACT

Understanding the behavior of stochastic gradient descent (SGD) in the context of deep neural networks has raised lots of concerns recently. Along this line, we study a general form of gradient based optimization dynamics with unbiased noise, which unifies SGD and standard Langevin dynamics. Through investigating this general optimization dynamics, we analyze the behavior of SGD on escaping from minima and its regularization effects. A novel indicator is derived to characterize the efficiency of escaping from minima through measuring the alignment of noise covariance and the curvature of loss function. Based on this indicator, two conditions are established to show which type of noise structure is superior to isotropic noise in term of escaping efficiency. We further show that the anisotropic noise in SGD satisfies the two conditions, and thus helps to escape from sharp and poor minima effectively, towards more stable and flat minima that typically generalize well. We systematically design various experiments to verify the benefits of the anisotropic noise, compared with full gradient descent plus isotropic diffusion (i.e. Langevin dynamics).

研究动机与目标

  • 激发对带有无偏噪声的 SGD 动力学及其对泛化影响的理解。
  • 引入一种统一 SGD 与 Langevin 动力学的通用梯度基优化动态。
  • 推导一个通过噪声-曲率对齐来衡量逃逸效率的新指示器。
  • 建立在何种条件下各向异性噪声优于各向同性噪声用于逃离极小点的条件。
  • 通过在神经网络上的多项实验实证验证各向异性噪声的益处。

提出的方法

  • 给出一种通用的梯度基随机动力学,具有无偏噪声,统一 SGD 与 Langevin 动力学。
  • 推导一个基于 Hessian 与噪声协方差乘积的迹 Tr(H Sigma) 的指标,用以衡量逃逸效率。
  • 在极小点附近使用 Ornstein-Uhlenbeck 近似进行局部分析,将逃逸行为与噪声结构联系起来。
  • 证明将病态条件数高的 Hessian 与对齐的各向异性噪声联系起来,达到更优的逃逸性能。
  • 设计并运行实验,对比含有不同 GLD 变体(各向同性和各向异性噪声)的 SGD,在玩具模型和真实数据集上。

实验结果

研究问题

  • RQ1SGD 噪声协方差 Sigma 的结构如何在幅度之外影响从极小点的逃逸?
  • RQ2在何种条件下与 Hessian 对齐的各向异性噪声优于各向同性噪声在逃离尖锐极小点方面?
  • RQ3在神经网络中,SGD 噪声协方差与损失景观曲率的关系是什么?
  • RQ4能否用各向异性扩散来解释 SGD 向平坦极小点回归以及改进的泛化?

主要发现

  • 指标 Tr(H Sigma) 控制逃逸效率,数值越高与更快逃离极小点呈相关。
  • 与 Hessian 对齐的各向异性噪声在逃离尖锐极小点方面可优于各向同性噪声,尤其在 Hessian 条件数差的情况下。
  • SGD 噪声协方差与 Hessian/费舍信息相关,意味着极小点附近的梯度协方差与曲率对齐。
  • 在神经网络中,SGD 通常满足使逃离到更平坦极小点比各向同性扩散方法更快的条件。
  • 在玩具模型和真实数据集(FashionMNIST、SVHN、CIFAR-10)的实验表明,类似于 SGD 的各向异性噪声导致更平坦的极小点和更好的泛化,相较于各向同性 GLD 变体。
  • 由于损失景观在实践中的各向异性特性,各向同性噪声对逃离尖锐极小点的提升并不显著。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。