Skip to main content
QUICK REVIEW

[论文解读] Global Convergence of Online Limited Memory BFGS

Aryan Mokhtari, Alejandro Ribeiro|arXiv (Cornell University)|Sep 6, 2014
Stochastic Gradient Optimization Techniques参考文献 32被引用 132
一句话总结

本文在随机优化设置下建立了在线有限内存拟牛顿法(oL-BFGS)的全局收敛性,证明了在Hessian矩阵特征值有界的条件下,该方法以概率1收敛至最优解。该方法使用随机梯度近似曲率,当步长参数满足涉及Hessian有界性的条件时,收敛性得以保证,其收敛速度和效率优于随机梯度下降(SGD)。

ABSTRACT

Global convergence of an online (stochastic) limited memory version of the Broyden-Fletcher- Goldfarb-Shanno (BFGS) quasi-Newton method for solving optimization problems with stochastic objectives that arise in large scale machine learning is established. Lower and upper bounds on the Hessian eigenvalues of the sample functions are shown to suffice to guarantee that the curvature approximation matrices have bounded determinants and traces, which, in turn, permits establishing convergence to optimal arguments with probability 1. Numerical experiments on support vector machines with synthetic data showcase reductions in convergence time relative to stochastic gradient descent algorithms as well as reductions in storage and computation relative to other online quasi-Newton methods. Experimental evaluation on a search engine advertising problem corroborates that these advantages also manifest in practical applications.

研究动机与目标

  • 建立适用于大规模机器学习目标的在线有限内存BFGS(oL-BFGS)方法在随机优化问题中的全局收敛性。
  • 证明样本函数Hessian矩阵的特征值有界,足以确保曲率近似矩阵的行列式和迹有界。
  • 在步长序列和Hessian有界性假设较弱的条件下,证明oL-BFGS可实现对最优解的几乎 surely 收敛。
  • 通过在合成SVM数据和真实世界搜索引擎广告问题上的数值实验,验证理论优势。

提出的方法

  • 通过使用随机梯度作为下降方向和曲率近似,将BFGS拟牛顿框架扩展至在线随机设置。
  • 采用有限内存结构以降低每轮迭代的存储和计算成本,同时保持低秩Hessian近似。
  • 在样本函数Hessian特征值有界的假设下,证明曲率近似矩阵的行列式和迹有界。
  • 采用步长规则 $\epsilon_t = \epsilon_0 T_0 / (T_0 + t)$,当 $2\epsilon_0 T_0 / C > 1$ 时可保证收敛。
  • 理论分析采用李雅普诺夫函数和递推不等式,以界定期望的最优性间隙 $\mathbb{E}[F(\mathbf{w}_t)] - F(\mathbf{w}^*)$。
  • 通过依赖于Hessian有界性和步长参数的递推界,证明收敛性。

实验结果

研究问题

  • RQ1在仅假设样本函数Hessian特征值有界的条件下,能否为在线有限内存BFGS方法在随机优化中建立全局收敛性?
  • RQ2当Hessian特征值有界时,随机梯度更新下曲率近似矩阵是否保持良好的条件性?
  • RQ3oL-BFGS方法在大规模机器学习问题中能否实现比随机梯度下降更快的收敛速度?
  • RQ4步长序列需满足何种条件,才能确保几乎 surely 收敛至最优解?
  • RQ5oL-BFGS的理论优势是否在真实应用场景中(而不仅限于合成数据)得以体现?

主要发现

  • 在样本函数Hessian特征值介于 $m > 0$ 和 $M < ∞$ 之间时,以概率1证明了对最优解的全局收敛性。
  • oL-BFGS所用曲率近似矩阵的行列式和迹有界,这对收敛稳定性至关重要。
  • 当满足步长条件 $2\epsilon_0 T_0 / C > 1$ 时,期望最优性间隙 $\mathbb{E}[F(\mathbf{w}_t)] - F(\mathbf{w}^*)$ 以线性速率衰减。
  • 在合成SVM数据上的数值实验表明,oL-BFGS相比SGD及其他在线拟牛顿方法显著缩短了收敛时间。
  • 在真实世界的搜索引擎广告任务中,oL-BFGS实现了比竞争方法更快的收敛速度,且存储和计算成本更低。
  • 该方法在病态条件和良态条件问题中均表现出稳健性能,收敛速度优于SGD,同时保持低内存使用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。