Skip to main content
QUICK REVIEW

[论文解读] A Linearly-Convergent Stochastic L-BFGS Algorithm

Philipp Moritz, Robert Nishihara|arXiv (Cornell University)|Aug 9, 2015
Stochastic Gradient Optimization Techniques参考文献 31被引用 78
一句话总结

本文提出了一种新颖的随机L-BFGS算法,通过将Johnson和Zhang(2013)提出的方差缩减技术整合到随机L-BFGS框架中,实现了对强凸且光滑函数的线性收敛。该方法使用小批量Hessian-向量乘积和完整梯度重置来降低梯度方差,从而在不使用递减步长的情况下实现快速且稳定的收敛。

ABSTRACT

We propose a new stochastic L-BFGS algorithm and prove a linear convergence rate for strongly convex and smooth functions. Our algorithm draws heavily from a recent stochastic variant of L-BFGS proposed in Byrd et al. (2014) as well as a recent approach to variance reduction for stochastic gradient descent from Johnson and Zhang (2013). We demonstrate experimentally that our algorithm performs well on large-scale convex and non-convex optimization problems, exhibiting linear convergence and rapidly solving the optimization problems to high levels of precision. Furthermore, we show that our algorithm performs well for a wide-range of step sizes, often differing by several orders of magnitude.

研究动机与目标

  • 设计一种随机L-BFGS算法,使其在保持拟牛顿方法快速收敛性的同时,能够高效扩展至大规模问题。
  • 通过完整梯度重置降低梯度方差,解决标准随机L-BFGS的不稳定性和收敛缓慢问题。
  • 在强凸且光滑的设定下,证明所提算法具有线性收敛速率,避免使用递减步长。
  • 通过实证结果表明,该算法在凸与非凸问题上均能实现线性收敛并快速获得高精度解。

提出的方法

  • 该算法为梯度和Hessian近似分别使用不同的小批量:$\mathcal{S}$ 用于随机梯度 $\nabla f_{\mathcal{S}}$,$\mathcal{T}$ 用于Hessian-向量乘积以构建逆Hessian近似 $H_k$。
  • 通过定期计算完整梯度 $\nabla f(w_k)$ 并利用其对随机梯度估计进行校正,实现方差缩减,即 $v_t = \nabla f_{\mathcal{S}}(x_t) - \nabla f_{\mathcal{S}}(w_k) + \nabla f(w_k)$。
  • 更新规则遵循 $w_{k+1} = w_k - \eta_k H_k v_k$,其中 $H_k$ 为通过L-BFGS记忆更新方式构建的有限内存BFGS近似。
  • 通过迹和行列式约束确保Hessian近似特征值有界,从而维持稳定性和收敛性保证。
  • 收敛性分析基于在光滑性和强凸性假设下,对校正后梯度估计的期望平方范数进行有界控制。
  • 该算法被设计为通过防止梯度估计中方差的累积,即使在最优解处初始化,也能保持线性收敛。

实验结果

研究问题

  • RQ1能否设计一种随机L-BFGS算法,在不使用递减步长的情况下实现线性收敛?
  • RQ2在大规模优化中,如何有效降低拟牛顿方法中随机梯度估计的方差?
  • RQ3将L-BFGS与方差缩减技术结合,是否能在凸与非凸问题上均实现更快的收敛速度?
  • RQ4该算法的性能在不同步长下(尤其跨越多个数量级)如何变化?

主要发现

  • 所提算法在强凸且光滑函数上实现了线性收敛速率,即使在最优解处初始化,收敛性仍可保证。
  • 在大规模凸与非凸问题上,该算法在实践中表现出线性收敛特性,能够快速求解至高精度。
  • 该方法在广泛范围的步长下表现稳健,步长差异可达多个数量级,表明其具有强大的数值稳定性。
  • 理论分析证实,方差缩减后的梯度估计可实现有界误差增长,从而在不使用递减步长的情况下实现线性收敛。
  • 该算法在Hessian近似中保持了有界的条件数,确保了迭代过程中的稳定且高效的更新。
  • 实证结果表明,该算法在病态条件设置下优于标准随机一阶方法,尤其在曲率信息至关重要的场景中表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。