Skip to main content
QUICK REVIEW

[论文解读] How To Make the Gradients Small Stochastically: Even Faster Convex and Nonconvex SGD

Zeyuan Allen-Zhu|arXiv (Cornell University)|Jan 8, 2018
Stochastic Gradient Optimization Techniques被引用 39
一句话总结

该论文提出了两种新的随机梯度下降(SGD)变体——SGD3用于凸优化,SGD5用于非凸优化——在减小梯度范数方面实现了显著更快的收敛速率。通过结合Nesterov加速技术与自适应学习率策略,算法在凸问题中实现了近似最优的 $\widetilde{O}(\varepsilon^{-2})$ 收敛速率,在非凸问题中实现了 $\widetilde{O}(\varepsilon^{-3.5})$ 收敛速率,相较于先前的界限提升了整整一个数量级。

ABSTRACT

Stochastic gradient descent (SGD) gives an optimal convergence rate when minimizing convex stochastic objectives $f(x)$. However, in terms of making the gradients small, the original SGD does not give an optimal rate, even when $f(x)$ is convex. If $f(x)$ is convex, to find a point with gradient norm $\varepsilon$, we design an algorithm SGD3 with a near-optimal rate $ ilde{O}(\varepsilon^{-2})$, improving the best known rate $O(\varepsilon^{-8/3})$ of [18]. If $f(x)$ is nonconvex, to find its $\varepsilon$-approximate local minimum, we design an algorithm SGD5 with rate $ ilde{O}(\varepsilon^{-3.5})$, where previously SGD variants only achieve $ ilde{O}(\varepsilon^{-4})$ [6, 15, 33]. This is no slower than the best known stochastic version of Newton's method in all parameter regimes [30].

研究动机与目标

  • 为解决随机凸优化中减小梯度范数的收敛速率差距,此前的方法仅能达到 $O(\varepsilon^{-8/3})$。
  • 将改进的梯度范数收敛性扩展至非凸优化,此前方法仅能达到 $\widetilde{O}(\varepsilon^{-4})$ 的界限。
  • 设计不依赖于数据规模 $n$ 的在线算法,适用于大规模或无限数据场景。
  • 统一并改进现有的加速技术,特别是Nesterov的技巧,以实现梯度范数的减少。
  • 为为何在某些应用中,小梯度比小目标值更适合作为优化目标,提供理论基础。

提出的方法

  • 提出SGD3,一种基于Nesterov加速与自适应学习率调度的SGD变体,可在凸设置下实现梯度范数减少的 $\widetilde{O}(\varepsilon^{-2})$ 收敛速率。
  • 采用两阶段策略:首先应用加速梯度下降,然后对输出结果执行梯度下降以进一步减小梯度范数。
  • 通过SGD5将类似原理应用于非凸问题,实现 $\widetilde{O}(\varepsilon^{-3.5})$ 的收敛速率,优于先前的 $\widetilde{O}(\varepsilon^{-4})$ 界限。
  • 使用带正则化项 $\psi(x)$ 的近端公式,以处理复合目标函数,并确保随机更新中的稳定性。
  • 采用方差有界的随机梯度预言机 $\mathcal{V}$,即使在梯度估计存在噪声时也能保证收敛。
  • 将梯度映射 $\mathcal{G}_{F,\eta}(x)$ 定义为关键收敛指标,目标为 $\|\mathcal{G}_{F,\eta}(x)\| \leq \varepsilon$。

实验结果

研究问题

  • RQ1能否将随机凸优化中减小梯度范数的收敛速率提升至超过 $O(\varepsilon^{-8/3})$?
  • RQ2能否将凸优化中使用的相同加速技术适配至非凸问题,以实现更快的收敛?
  • RQ3能否设计一种在线算法,在不依赖于 $n$ 的前提下实现接近最优的梯度范数减少?
  • RQ4与标准SGD相比,Nesterov的加速技巧在提升梯度范数收敛性方面有何优势?
  • RQ5随机设置下梯度范数减少的理论极限是什么?能否接近该极限?

主要发现

  • SGD3在凸目标下实现了 $\widetilde{O}(\varepsilon^{-2})$ 的梯度范数收敛速率,优于此前最优的 $O(\varepsilon^{-8/3})$ 速率。
  • 在非凸问题中,SGD5实现了 $\widetilde{O}(\varepsilon^{-3.5})$ 的收敛速率,达到 $\varepsilon$-近似驻点,优于先前的 $\widetilde{O}(\varepsilon^{-4})$ 速率。
  • 改进后的速率在对数因子范围内达到最优,与已知最优的随机牛顿方法速率一致。
  • 所提出的算法为在线算法,其梯度复杂度与 $n$ 无关,适用于大规模或流式数据场景。
  • 理论分析证实,在矩阵缩放与对偶优化等应用中,最小化梯度范数比最小化目标值更具相关性。
  • 结果表明,加速技术不仅可有效用于目标值减少,同样可被重新用于梯度范数减少。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。