Skip to main content
QUICK REVIEW

[论文解读] Hybrid Stochastic Gradient Descent Algorithms for Stochastic Nonconvex Optimization

Quoc Tran-Dinh, Nhan H. Pham|arXiv (Cornell University)|Jan 1, 2019
Stochastic Gradient Optimization Techniques参考文献 28被引用 22
一句话总结

本文提出一种混合随机梯度估计器,结合SARAH(有偏)与SGD(无偏),以在非凸随机优化中降低方差与偏差。所提出的单循环HybridSGD-SARAH算法在光滑性和有界方差假设下,找到ε-稳定点的复杂度界为O(σε⁻³ + σ³ε⁻¹),当σ < O(ε⁻³)时优于标准SGD的O(σ²ε⁻⁴)。

ABSTRACT

We introduce a hybrid stochastic estimator to design stochastic gradient algorithms for solving stochastic optimization problems. Such a hybrid estimator is a convex combination of two existing biased and unbiased estimators and leads to some useful property on its variance. We limit our consideration to a hybrid SARAH-SGD for nonconvex expectation problems. However, our idea can be extended to handle a broader class of estimators in both convex and nonconvex settings. We propose a new single-loop stochastic gradient descent algorithm that can achieve $O(\max\{σ^3\varepsilon^{-1},σ\varepsilon^{-3}\})$-complexity bound to obtain an $\varepsilon$-stationary point under smoothness and $σ^2$-bounded variance assumptions. This complexity is better than $O(σ^2\varepsilon^{-4})$ often obtained in state-of-the-art SGDs when $σ&lt; O(\varepsilon^{-3})$. We also consider different extensions of our method, including constant and adaptive step-size with single-loop, double-loop, and mini-batch variants. We compare our algorithms with existing methods on several datasets using two nonconvex models.

研究动机与目标

  • 开发一类新型随机梯度算法,以高效地在非凸随机优化问题中找到ε-近似稳定点。
  • 通过结合有偏递归估计器(SARAH)与无偏估计器(SGD),降低梯度估计器的方差与偏差。
  • 实现优于最先进方法的收敛复杂度,尤其在噪声水平σ相对于期望精度ε较小时表现更优。
  • 将框架扩展至单循环、双循环、自适应步长及小批量变体,同时保持最优复杂度界。

提出的方法

  • 提出一种混合随机梯度估计器,作为SARAH(有偏)与SGD(无偏)估计器的凸组合:vt = βt−1vt−1 + βt−1(∇f(xt;ξt)−∇f(xt−1;ξt)) + (1−βt−1)ut。
  • 采用递归更新机制,利用近期梯度差值,并通过混合参数βt在偏差降低与方差控制之间保持平衡。
  • 设计一种单循环算法,每轮迭代评估三个点的梯度:当前迭代点、前一迭代点及递归更新点。
  • 采用步长η = O(m⁻¹ᐟ³),大于标准SGD的O(m⁻¹ᐟ²),从而实现更快收敛。
  • 引入自适应步长变体,其中步长随时间增加,与经典SGD中递减步长形成对比。
  • 将方法扩展至双循环与小批量设置,同时保持最优复杂度界。

实验结果

研究问题

  • RQ1结合有偏(SARAH)与无偏(SGD)梯度估计器的混合估计器,是否能在非凸随机优化中实现优于标准SGD的收敛复杂度?
  • RQ2所提出的带混合估计器的单循环算法是否能实现O(σε⁻³ + σ³ε⁻¹)的复杂度界,从而在σ < O(ε⁻³)时优于标准SGD的O(σ²ε⁻⁴)?
  • RQ3该混合估计器能否扩展至双循环、自适应步长及小批量变体,同时保持最优复杂度?
  • RQ4在真实数据集上的实际性能中,该混合方法与最先进方法(如SVRG、SpiderBoost、SPIDER)相比如何?
  • RQ5尽管每次迭代成本更高,该方法中更大的步长(O(m⁻¹ᐟ³))是否仍能实现更快收敛?

主要发现

  • 所提出的单循环HybridSGD-SARAH算法在找到ε-稳定点时,实现O(σε⁻³ + σ³ε⁻¹)的复杂度界,当σ < O(ε⁻³)时优于标准SGD的O(σ²ε⁻⁴)。
  • 该算法每轮迭代需三次梯度评估,但实现了更优的复杂度界,因此在低噪声环境下更具效率。
  • 混合估计器通过结合SARAH的递归结构与SGD的无偏特性,同时降低了偏差与方差。
  • 双循环变体实现O(max{σε⁻³, σ²ε⁻²})的复杂度,是文献中非凸设置下随机梯度类方法的最佳已知界。
  • 自适应步长变体表现出递增的步长,与经典SGD的递减步长形成对比,但仍实现最优收敛性。
  • 在真实数据集(w8a, rcv1, real-sim, epsilon, news20, url_combined)上的数值实验表明,HybridSGD-SL与HybridSGD-ASL在训练损失与梯度范数上均优于SGD2与SVRG,且精度相当或更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。