Skip to main content
QUICK REVIEW

[論文レビュー] Global Convergence of Online Limited Memory BFGS

Aryan Mokhtari, Alejandro Ribeiro|arXiv (Cornell University)|Sep 6, 2014
Stochastic Gradient Optimization Techniques参考文献 32被引用数 132
ひとこと要約

本稿は、Hessian固有値が有界であるという条件下で、確率的最適化設定におけるオンライン限定メモリBFGS(oL-BFGS)法のグローバル収束を確立している。確率的勾配を曲率の近似に用い、ステップサイズパラメータがHessianの有界性を含む条件を満たす場合、収束が保証され、SGDに比べて収束速度と効率性が優れていることが示された。

ABSTRACT

Global convergence of an online (stochastic) limited memory version of the Broyden-Fletcher- Goldfarb-Shanno (BFGS) quasi-Newton method for solving optimization problems with stochastic objectives that arise in large scale machine learning is established. Lower and upper bounds on the Hessian eigenvalues of the sample functions are shown to suffice to guarantee that the curvature approximation matrices have bounded determinants and traces, which, in turn, permits establishing convergence to optimal arguments with probability 1. Numerical experiments on support vector machines with synthetic data showcase reductions in convergence time relative to stochastic gradient descent algorithms as well as reductions in storage and computation relative to other online quasi-Newton methods. Experimental evaluation on a search engine advertising problem corroborates that these advantages also manifest in practical applications.

研究の動機と目的

  • 大規模な機械学習目的関数を対象とする確率的最適化問題において、オンライン限定メモリBFGS(oL-BFGS)法のグローバル収束を確立すること。
  • サンプル関数のHessianの固有値が有界であれば、行列の行列式とトレースが有界である曲率近似行列の収束を保証する十分条件であることを示すこと。
  • ステップサイズ列とHessianの有界性に関するやや弱い仮定のもとで、oL-BFGSが最適解へほとんど確実に収束することを示すこと。
  • 合成SVMデータと実世界の検索エンジン広告問題における数値実験を通じて、理論的利点を検証すること。

提案手法

  • 本手法は、確率的勾配を降下方向および曲率近似に用いることで、BFGS準ニュートンフレームワークをオンライン確率的設定に拡張する。
  • 計算コストと反復ごとの記憶容量を削減するため、限定メモリ構造を採用し、低ランクのHessian近似を維持する。
  • サンプル関数のHessian固有値が有界であるという仮定のもとで、曲率近似行列の行列式とトレースが有界であることが示された。
  • ステップサイズルールとして $\epsilon_t = \epsilon_0 T_0 / (T_0 + t)$ を用い、$2\epsilon_0 T_0 / C > 1$ を満たす場合に収束が保証される。
  • 理論的分析では、リャプノフ関数と再帰的不等式を用いて、期待最適性ギャップ $\mathbb{E}[F(\mathbf{w}_t)] - F(\mathbf{w}^*)$ をバインドする。
  • 収束は、Hessianの有界性とステップサイズパラメータに依存するレートで線形に減少する再帰的バインドにより証明された。

実験結果

リサーチクエスチョン

  • RQ1Hessian固有値が有界であるという条件のみで、確率的最適化におけるオンライン限定メモリBFGS法のグローバル収束を確立できるか?
  • RQ2Hessian固有値が有界な場合、確率的勾配更新のもとで曲率近似行列が適切に条件付けられるか?
  • RQ3oL-BFGS法は、大規模な機械学習問題において、確率的勾配降下法(SGD)よりも高速に収束するか?
  • RQ4ステップサイズ列にどのような条件を課すと、最適解へのほとんど確実な収束が保証されるか?
  • RQ5oL-BFGSの理論的利点は、合成データ以外の実応用においても顕在化するか?

主な発見

  • Hessian固有値が $m > 0$ と $M < ∞$ の間で有界であるという仮定のもとで、最適解への収束確率が1であることが証明された。
  • oL-BFGSで用いられる曲率近似行列は、行列式とトレースが有界であり、収束の安定性にとって不可欠である。
  • ステップサイズ条件 $2\epsilon_0 T_0 / C > 1$ が満たされる場合、期待最適性ギャップ $\mathbb{E}[F(\mathbf{w}_t)] - F(\mathbf{w}^*)$ は線形レートで減少する。
  • 合成SVMデータに対する数値実験では、oL-BFGSがSGDや他のオンライン準ニュートン法よりも収束時間を短縮した。
  • 実世界の検索エンジン広告タスクでは、oL-BFGSが競合手法と比較して、収束が速く、記憶容量と計算コストも低かった。
  • 本手法は、悪条件と良好な条件の両方の問題においても頑健な性能を示し、SGDを上回る収束速度を維持しながら、低メモリ使用を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。