Skip to main content
QUICK REVIEW

[论文解读] Stochastic Variance Reduction for Nonconvex Optimization

Sashank J. Reddi, Ahmed Hefny|arXiv (Cornell University)|Mar 19, 2016
Stochastic Gradient Optimization Techniques参考文献 33被引用 242
一句话总结

本文分析带有 SVRG 的非凸有限-和优化,证明非渐近收敛到驻点的速度快于 SGD 和梯度下降,并且在梯度支配的子类中显示出线性收敛。

ABSTRACT

We study nonconvex finite-sum problems and analyze stochastic variance reduced gradient (SVRG) methods for them. SVRG and related methods have recently surged into prominence for convex optimization given their edge over stochastic gradient descent (SGD); but their theoretical analysis almost exclusively assumes convexity. In contrast, we prove non-asymptotic rates of convergence (to stationary points) of SVRG for nonconvex optimization, and show that it is provably faster than SGD and gradient descent. We also analyze a subclass of nonconvex problems on which SVRG attains linear convergence to the global optimum. We extend our analysis to mini-batch variants of SVRG, showing (theoretical) linear speedup due to mini-batching in parallel settings.

研究动机与目标

  • 激励并分析用于非凸有限-和问题的随机方差降维梯度(VR)方法。
  • 建立 SVRG 到驻点的非渐近收敛率,优于 SGD 和梯度下降。
  • 识别使 SVRG 对非凸问题子类(梯度支配)实现线性收敛的条件。
  • 研究小批量 SVRG 并在并行设置中证明线性加速。
  • 在非凸和凸情形下,提供 SGD、梯度下降和 SVRG 之间的比较与见解。

提出的方法

  • 在 Incremental First-order Oracle (IFO) 模型下,研究定义为 f(x) = (1/n) sum_{i=1}^n f_i(x) 的 Lipschitz-smooth 组分的优化。
  • 分析在参考点处计算全梯度、并在每个时期进行内部随机更新的非凸 SVRG(算法 2)。
  • 推导收敛性保证:在适当的参数选择下,E[||∇f(x_a)||^2] ≤ (f(x^0) - f(x^*))/(T γ_n)。
  • 引入步长和时段长度的参数选择,以获得明确的 IFO 复杂度。
  • 将分析扩展至小批量 SVRG(算法 4),显示方差减少与并行化的好处。
  • 提出一个变体(Msvrg),在 SGD 风格和 GD 风格行为之间平衡步长,以改善 IFO 复杂度。

实验结果

研究问题

  • RQ1SVRG 是否能在有限和问题上实现比 SGD 与梯度下降更快的非凸收敛速率?
  • RQ2在什么参数范围内,SVRG 能对梯度支配的非凸函数实现可证明的线性收敛?
  • RQ3小批量如何影响 SVRG 的收敛,以及它是否能在并行设置中提供线性加速?
  • RQ4在 IFO 复杂度方面,SVRG 相较于 SGD 与梯度下降在非凸和凸情形中有何比较?

主要发现

  • 对于非凸有限和问题,SVRG 相较于 SGD 和 GradientDescent 在收敛到驻点方面更快,在某些情形下提升可达与 n^{1/3} 相关的因子。
  • 对于非凸 SVRG,达到 ε 精度的 IFO 复杂度取决于 α,可表示为 O(n + n^{1/3}/ε) 或 O(n + n^{α}/ε),在 α = 2/3 时达到最优依赖。
  • 对于梯度支配(τ-梯度支配)非凸函数,SVRG 实现全局线性收敛,IFO 复杂度为 O((n + τ n^{2/3}) log(1/ε))。
  • 在 SVRG 的小批量情况下,在并行设置下,当批量大小 b < n^{2/3} 时可实现线性加速,同时不增加总 IFO 调用次数,使 IFO 模型的复杂度为 O(n + n^{2/3}/ε)。
  • 变体 Msvrg 结合有利的步长选择,在某些假设(σ-有界梯度)下实现比 SGD 和 GradientDescent 更好的 IFO 复杂度。
  • 本文还给出凸情形分析,表明 SVRG 在 IFO 复杂度上达到 O(1/ε) 的速率,并且通过量身定制的参数选择可以达到改进的速率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。