QUICK REVIEW

[论文解读] A Linearly-Convergent Stochastic L-BFGS Algorithm

Philipp Moritz, Robert Nishihara|arXiv (Cornell University)|Aug 9, 2015

Stochastic Gradient Optimization Techniques参考文献 31被引用 78

一句话总结

本文提出了一种新颖的随机L-BFGS算法，通过将Johnson和Zhang（2013）提出的方差缩减技术整合到随机L-BFGS框架中，实现了对强凸且光滑函数的线性收敛。该方法使用小批量Hessian-向量乘积和完整梯度重置来降低梯度方差，从而在不使用递减步长的情况下实现快速且稳定的收敛。

ABSTRACT

We propose a new stochastic L-BFGS algorithm and prove a linear convergence rate for strongly convex and smooth functions. Our algorithm draws heavily from a recent stochastic variant of L-BFGS proposed in Byrd et al. (2014) as well as a recent approach to variance reduction for stochastic gradient descent from Johnson and Zhang (2013). We demonstrate experimentally that our algorithm performs well on large-scale convex and non-convex optimization problems, exhibiting linear convergence and rapidly solving the optimization problems to high levels of precision. Furthermore, we show that our algorithm performs well for a wide-range of step sizes, often differing by several orders of magnitude.

研究动机与目标

设计一种随机L-BFGS算法，使其在保持拟牛顿方法快速收敛性的同时，能够高效扩展至大规模问题。
通过完整梯度重置降低梯度方差，解决标准随机L-BFGS的不稳定性和收敛缓慢问题。
在强凸且光滑的设定下，证明所提算法具有线性收敛速率，避免使用递减步长。
通过实证结果表明，该算法在凸与非凸问题上均能实现线性收敛并快速获得高精度解。

提出的方法

该算法为梯度和Hessian近似分别使用不同的小批量：$\mathcal{S}$ 用于随机梯度 $\nabla f_{\mathcal{S}}$，$\mathcal{T}$ 用于Hessian-向量乘积以构建逆Hessian近似 $H_k$。
通过定期计算完整梯度 $\nabla f(w_k)$ 并利用其对随机梯度估计进行校正，实现方差缩减，即 $v_t = \nabla f_{\mathcal{S}}(x_t) - \nabla f_{\mathcal{S}}(w_k) + \nabla f(w_k)$。
更新规则遵循 $w_{k+1} = w_k - \eta_k H_k v_k$，其中 $H_k$ 为通过L-BFGS记忆更新方式构建的有限内存BFGS近似。
通过迹和行列式约束确保Hessian近似特征值有界，从而维持稳定性和收敛性保证。
收敛性分析基于在光滑性和强凸性假设下，对校正后梯度估计的期望平方范数进行有界控制。
该算法被设计为通过防止梯度估计中方差的累积，即使在最优解处初始化，也能保持线性收敛。

实验结果

研究问题

RQ1能否设计一种随机L-BFGS算法，在不使用递减步长的情况下实现线性收敛？
RQ2在大规模优化中，如何有效降低拟牛顿方法中随机梯度估计的方差？
RQ3将L-BFGS与方差缩减技术结合，是否能在凸与非凸问题上均实现更快的收敛速度？
RQ4该算法的性能在不同步长下（尤其跨越多个数量级）如何变化？

主要发现

所提算法在强凸且光滑函数上实现了线性收敛速率，即使在最优解处初始化，收敛性仍可保证。
在大规模凸与非凸问题上，该算法在实践中表现出线性收敛特性，能够快速求解至高精度。
该方法在广泛范围的步长下表现稳健，步长差异可达多个数量级，表明其具有强大的数值稳定性。
理论分析证实，方差缩减后的梯度估计可实现有界误差增长，从而在不使用递减步长的情况下实现线性收敛。
该算法在Hessian近似中保持了有界的条件数，确保了迭代过程中的稳定且高效的更新。
实证结果表明，该算法在病态条件设置下优于标准随机一阶方法，尤其在曲率信息至关重要的场景中表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。