[论文解读] Barzilai-Borwein Step Size for Stochastic Gradient Descent
本文提出 SGD-BB 和 SVRG-BB,采用 Barzilai-Borwein (BB) 方法自动计算随机梯度下降及其方差缩减变体中的步长。作者证明了 SVRG-BB 在强凸函数下的线性收敛性,并通过实验表明,该方法在标准机器学习数据集上的性能与手工调优步长的 SGD 和 SVRG 相当或更优。
One of the major issues in stochastic gradient descent (SGD) methods is how to choose an appropriate step size while running the algorithm. Since the traditional line search technique does not apply for stochastic optimization algorithms, the common practice in SGD is either to use a diminishing step size, or to tune a fixed step size by hand, which can be time consuming in practice. In this paper, we propose to use the Barzilai-Borwein (BB) method to automatically compute step sizes for SGD and its variant: stochastic variance reduced gradient (SVRG) method, which leads to two algorithms: SGD-BB and SVRG-BB. We prove that SVRG-BB converges linearly for strongly convex objective functions. As a by-product, we prove the linear convergence result of SVRG with Option I proposed in [10], whose convergence result is missing in the literature. Numerical experiments on standard data sets show that the performance of SGD-BB and SVRG-BB is comparable to and sometimes even better than SGD and SVRG with best-tuned step sizes, and is superior to some advanced SGD variants.
研究动机与目标
- 为解决随机梯度下降(SGD)中步长选择的挑战,其中通常使用固定或递减步长,但效果次优。
- 开发一种自动步长选择机制,避免手动调参,且不依赖在随机设置下不可行的线搜索。
- 将 Barzilai-Borwein 方法扩展至随机优化,具体应用于 SGD 和 SVRG,从而得到 SGD-BB 和 SVRG-BB。
- 证明 SVRG-BB 的线性收敛性,并作为副产品,为使用 Option I 的 SVRG 提供缺失的线性收敛性证明。
- 在逻辑回归和 SVM 问题上对所提方法的性能进行实证评估,并与最先进 SGD 变体进行比较。
提出的方法
- 通过利用连续两次迭代的迭代点差值和梯度差值,将 Barzilai-Borwein (BB) 方法适配于 SGD 和 SVRG 中以计算步长。
- 在每次迭代中,BB 步长计算为 $ \eta_t = \frac{\|s_{t-1}\|^2}{\langle s_{t-1}, y_{t-1} \rangle} $,其中 $ s_{t-1} = x_t - x_{t-1} $ 且 $ y_{t-1} = \nabla f_{i_t}(x_t) - \nabla f_{i_{t-1}}(x_{t-1}) $。
- 引入一种平滑技术以在 SGD-BB 中稳定 BB 步长,通过使用历史步长的移动平均来防止振荡。
- 还将 BB 方法扩展至 SAG 框架,得到 SAG-BB,该方法在动态调整步长的同时保持了方差缩减特性。
- 算法设计保持与标准 SGD 和 SVRG 相同的每次迭代计算成本,确保实际效率。
- 对 SVRG-BB 进行了理论收敛性分析,证明在强凸性和光滑性假设下具有线性收敛性。
实验结果
研究问题
- RQ1Barzilai-Borwein 方法能否有效适配于随机梯度下降,以在无需线搜索的情况下自动计算步长?
- RQ2SVRG-BB 是否对强凸函数实现线性收敛,且能否严格证明?
- RQ3在文献中此前尚未证明的前提下,SVRG 使用 Option I(SVRG-I)的收敛性是否可被证明为线性?
- RQ4SGD-BB 和 SVRG-BB 在真实世界机器学习问题上的性能与使用最佳调优步长的 SGD 和 SVRG 相比如何?
- RQ5BB 步长机制能否成功扩展至其他方差缩减的 SGD 变体(如 SAG)?
主要发现
- SVRG-BB 对于强凸目标函数实现了线性收敛,为所提方法提供了理论保证。
- 作为副产品,本文证明了使用 Option I 的 SVRG 的线性收敛性,该结果此前在文献中缺失。
- 数值实验表明,SGD-BB 在逻辑回归和 SVM 任务上的表现与最佳调优步长的 SGD 相当或更优。
- SVRG-BB 的性能与使用最佳调优步长的 SVRG 相当或更优,证明了自动步长选择的有效性。
- 平滑技术稳定了 SGD-BB 中的步长,使其在数个周期后能跟随类似最优递减步长的下降趋势。
- 与 AdaGrad、带线搜索的 SAG(SAG-L)以及 oLBFGS 相比,SGD-BB 和 SAG-BB 在收敛速度和次优性方面始终表现更优或相当。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。