Skip to main content
QUICK REVIEW

[论文解读] Escaping Saddles with Stochastic Gradients

Hadi Daneshmand, Jonas Köhler|arXiv (Cornell University)|Mar 15, 2018
Stochastic Gradient Optimization Techniques参考文献 23被引用 57
一句话总结

本论文表明随机梯度具有相关负曲率且能在没有各向同性噪声的情况下逃离鞍点,为在 CNC 假设下的 SGD 提供一阶到二阶收敛速率,并且与维度无关。

ABSTRACT

We analyze the variance of stochastic gradients along negative curvature directions in certain non-convex machine learning models and show that stochastic gradients exhibit a strong component along these directions. Furthermore, we show that - contrary to the case of isotropic noise - this variance is proportional to the magnitude of the corresponding eigenvalues and not decreasing in the dimensionality. Based upon this observation we propose a new assumption under which we show that the injection of explicit, isotropic noise usually applied to make gradient descent escape saddle points can successfully be replaced by a simple SGD step. Additionally - and under the same condition - we derive the first convergence rate for plain SGD to a second-order stationary point in a number of iterations that is independent of the problem dimension.

研究动机与目标

  • 在非凸优化中使用 SGD 从鞍点逃离的挑战。
  • 引入随机梯度的相关负曲率(CNC)假设。
  • 证明在没有各向同性扰动的情况下,SGD 可以收敛到二阶驻点。
  • 在 CNC 下给出与问题维数无关的收敛速率。
  • 在理论上验证学习半空间的 CNC,并在神经网络上进行实证验证。

提出的方法

  • 定义 CNC:随机梯度在最小 Hessian 特征向量的投影具有统一下界的二阶矩(gamma)。
  • 研究经过 SGD 步骤扰动的 GD (CNC-PGD) 与未扰动的 SGD (CNC-SGD) 在光滑性假设下。
  • 定理 1:CNC-PGD 在 O((ell L)^4 (delta gamma epsilon)^{-2} log(...) ) 步内以高概率找到一个 (epsilon, sqrt(rho) epsilon^{2/5})-二阶驻点。
  • 定理 2:CNC-SGD 在高概率下以 O((L^3 ell^{10})/(delta^4 gamma^4) * epsilon^{-10} log^2(...)) 步找到一个 (epsilon, sqrt(rho) epsilon)-二阶驻点。
  • 在学习半空间方面证明 CNC 对随机梯度成立(通过对投影梯度方差的下界)。
  • 提供经验性证据表明随机梯度在神经网络的负曲率方向具有显著方差。

实验结果

研究问题

  • RQ1在较弱的 CNC 假设下,SGD 是否能在没有显式各向同性噪声的情况下逃离鞍点?
  • RQ2CNC-PGD 和 CNC-SGD 能达到的二阶驻点收敛速率是多少?这些速率是否与维度相关?
  • RQ3CNC 条件是否在实际问题(如学习半空间、训练神经网络)中成立?
  • RQ4随机梯度在负曲率方向上的方差如何随 Hessian 特征值以及网络宽度/深度变化?
  • RQ5在神经网络上的实验证据是否支持 CNC 假设及其对优化动态的影响?

主要发现

  • 在 CNC 下,CNC-PGD 在多项式对数迭代次数内并且不需要显式的各向同性噪声,达到 (epsilon, sqrt(rho) epsilon^{2/5})-二阶驻点。
  • 在 CNC 下,CNC-SGD 在大约 epsilon^{-10} 次迭代内达到 (epsilon, sqrt(rho) epsilon)-二阶驻点,且收敛不随维度而变化。
  • 随机梯度在负曲率方向上表现出强的分量,沿这些方向的方差与相应的特征值成正比,与维度无关。
  • 对于学习半空间,CNC 对随机梯度成立,使得在没有 added perturbations 的情况下获得收敛保证。
  • 在 MNIST 上的实证结果表明,随机梯度在最小曲率方向的方差与网络的宽度/深度无关,支持 CNC 在优化动力学中的适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。