Skip to main content
QUICK REVIEW

[论文解读] On Nonconvex Optimization for Machine Learning: Gradients, Stochasticity, and Saddle Points

Chi Jin, Praneeth Netrapalli|arXiv (Cornell University)|Feb 13, 2019
Stochastic Gradient Optimization Techniques参考文献 46被引用 58
一句话总结

本文分析扰动梯度法(PGD 和 PSGD),以在非凸机器学习中高效地逃离鞍点,在寻找二阶驻点方面实现对维度的 polylogarithmic 依赖。

ABSTRACT

Gradient descent (GD) and stochastic gradient descent (SGD) are the workhorses of large-scale machine learning. While classical theory focused on analyzing the performance of these methods in convex optimization problems, the most notable successes in machine learning have involved nonconvex optimization, and a gap has arisen between theory and practice. Indeed, traditional analyses of GD and SGD show that both algorithms converge to stationary points efficiently. But these analyses do not take into account the possibility of converging to saddle points. More recent theory has shown that GD and SGD can avoid saddle points, but the dependence on dimension in these analyses is polynomial. For modern machine learning, where the dimension can be in the millions, such dependence would be catastrophic. We analyze perturbed versions of GD and SGD and show that they are truly efficient---their dimension dependence is only polylogarithmic. Indeed, these algorithms converge to second-order stationary points in essentially the same time as they take to converge to classical first-order stationary points.

研究动机与目标

  • 激发在机器学习中研究非凸优化的兴趣,以及理论与实践之间的差距。
  • 将收敛性分析扩展到非凸问题的确定性和随机性设置。
  • 将迭代复杂度界定为与精度和维度相关的函数。
  • 表示可以使用简单的扰动方案高效地避免鞍点。

提出的方法

  • 通过在 GD 更新中加入高斯扰动引入 Perturbed Gradient Descent (PGD)。
  • 证明 PGD 在 Õ(ε^{-2}) 次迭代中找到 ε-二阶驻点,且对维度只具有 polylogarithmic 的依赖。
  • 引入 Perturbed Stochastic Gradient Descent (PSGD) 及带各向同性扰动的小批量 PSGD。
  • 推导在 Lipschitz 假设或无此假设下,PSGD 达到 ε-二阶驻点所需的迭代复杂度。
  • 给出实现上述保证的参数设定(步长 η 和扰动半径 r)。
  • 与以前的方法进行比较,强调单环结构的简单性相对于双环替代方案。

实验结果

研究问题

  • RQ1简单的扰动是否能使梯度方法在高维空间中高效地逃离鞍点?
  • RQ2GD、SGD 及其扰动变体在收敛到 ε-二阶驻点过程中的维度依赖是多少?
  • RQ3在何种梯度/随机性假设下,扰动方法可以达到 polylogarithmic 或线性维度的迭代复杂度?

主要发现

  • Perturbed Gradient Descent (PGD) 在 Õ(ε^{-2}) 次迭代中找到 ε-二阶驻点,且对维度只有 polylogarithmic 的依赖。
  • Perturbed Stochastic Gradient Descent (PSGD) 在 Lipschitz 随机梯度下在 Õ(ε^{-4}) 次迭代达到 ε-二阶驻点,接近一阶收敛速率,差异仅由 polylog 因子。
  • 在无 Lipschitz 条件时,PSGD 增加额外的维度因子 d,达到 Õ(d ε^{-4}) 次迭代。
  • 在 Lipschitz 条件成立时,PSGD 的一阶点收敛速率与 SGD 相当,最多在对数因子范围内。
  • 本文将二阶驻点置于广义非凸 ML 问题的充分条件,其中所有局部极小值均为全局极小值,且鞍点是严格的。
  • 一个简单的单环扰动框架可以匹配或优于多环方法在逃离鞍点方面的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。