Skip to main content
QUICK REVIEW

[论文解读] Gradient Descent Can Take Exponential Time to Escape Saddle Points

Simon S. Du, Chi Jin|arXiv (Cornell University)|May 29, 2017
Stochastic Gradient Optimization Techniques被引用 63
一句话总结

本文证明标准梯度下降在鞍点处可能需要指数时间才能逃离,而带扰动的梯度下降在多项式时间内逃离。

ABSTRACT

Although gradient descent (GD) almost always escapes saddle points asymptotically [Lee et al., 2016], this paper shows that even with fairly natural random initialization schemes and non-pathological functions, GD can be significantly slowed down by saddle points, taking exponential time to escape. On the other hand, gradient descent with perturbations [Ge et al., 2015, Jin et al., 2017] is not slowed down by saddle points - it can find an approximate local minimizer in polynomial time. This result implies that GD is inherently slower than perturbed GD, and justifies the importance of adding perturbations for efficient non-convex optimization. While our focus is theoretical, we also present experiments that illustrate our theoretical findings.

研究动机与目标

  • 评估在非凸、平滑函数下,随机初始化的梯度下降是否在多项式时间内逃离鞍点。
  • 构建非病态且自然的初始化情景,以分析有无扰动的 GD 的表现。
  • 比较 GD 与扰动 GD 在到达二阶驻点的所需时间。
  • 用构造的反例进行实验来说明理论发现。

提出的方法

  • 给出光滑性和严格鞍点的形式化定义(梯度 Lipschitz、Hessian Lipschitz,以及 alpha-严格鞍点)。
  • 在构造的光滑函数上,展示带随机初始化的 GD 可能需要指数时间逃离一系列鞍点。
  • 采用扰动梯度下降(PGD),并在适当参数下证明其能够多项式时间逃离鞍点。
  • 给出一个基于多鞍点构造(“管道”与“章鱼”)的证明要点,扩展至 d 维,然后通过 Whitney 延拓扩展到 R^d。
  • 在不同维度下提供实证演示,比较 GD 与 PGD 在反例上的表现。

实验结果

研究问题

  • RQ1随机初始化的梯度下降在非凸平滑函数上是否能在多项式时间内逃离鞍点?
  • RQ2扰动如何影响在非凸优化中逃离鞍点所需的时间?
  • RQ3我们是否能够构造出自然或近自然的初始条件,使 GD 本质上呈指数时间变慢?
  • RQ4在合理条件下,扰动型 GD 是否能对鞍点进行多项式时间外逃?

主要发现

  • 在相当自然的初始化下,对构造的光滑函数,GD 在逃离 d 个鞍点时可能需要 exp(d) 次迭代。
  • 扰动梯度下降在多项式阶的迭代次数中以高概率逃离鞍点。
  • 存在具有许多对称鞍点的函数,其中 GD 的逃离时间会随鞍点数量呈乘法级增长,而 PGD 对每个鞍点的逃离时间大致保持不变。
  • 在单位立方体上均匀初始化的条件下,存在光滑、边界有界且 Lipschitz 的函数,使得 GD 在高概率下在 e^{Omega(d)} 步内无法达到 epsilon-二阶驻点,而 PGD 能达到。
  • 推论将结果扩展到广泛的初始化族群,包括在椭圆无限球内集中的质量的随机高斯初始化,保持指数时间与多项式时间的对比。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。