Skip to main content
QUICK REVIEW

[論文レビュー] Barzilai-Borwein Step Size for Stochastic Gradient Descent

Conghui Tan, Shiqian Ma|ArXiv.org|May 13, 2016
Stochastic Gradient Optimization Techniques参考文献 26被引用数 70
ひとこと要約

本稿では、確率的勾配降下法(SGD)およびその分散低減版(SVRG)におけるステップサイズを自動的に計算するために、バーツィライ・ボーヴァイン(BB)法を用いたSGD-BBおよびSVRG-BBを提案する。著者らは、強い凸関数に対してSVRG-BBの線形収束を証明し、標準的な機械学習データセット上での実験により、手動で最適化されたステップサイズを用いたSGDやSVRGと同等またはそれ以上の性能を示した。

ABSTRACT

One of the major issues in stochastic gradient descent (SGD) methods is how to choose an appropriate step size while running the algorithm. Since the traditional line search technique does not apply for stochastic optimization algorithms, the common practice in SGD is either to use a diminishing step size, or to tune a fixed step size by hand, which can be time consuming in practice. In this paper, we propose to use the Barzilai-Borwein (BB) method to automatically compute step sizes for SGD and its variant: stochastic variance reduced gradient (SVRG) method, which leads to two algorithms: SGD-BB and SVRG-BB. We prove that SVRG-BB converges linearly for strongly convex objective functions. As a by-product, we prove the linear convergence result of SVRG with Option I proposed in [10], whose convergence result is missing in the literature. Numerical experiments on standard data sets show that the performance of SGD-BB and SVRG-BB is comparable to and sometimes even better than SGD and SVRG with best-tuned step sizes, and is superior to some advanced SGD variants.

研究の動機と目的

  • 固定または減少するステップサイズが一般的に用いられるが、それらは最適でないため、確率的勾配降下法(SGD)におけるステップサイズ選択の課題に対処すること。
  • 手動によるチューニングを避け、ラインサーチに依存しない自動ステップサイズ選択メカニズムを構築すること。
  • バーツィライ・ボーヴァイン法を確率的最適化に拡張し、特にSGDおよびSVRGに適用することで、SGD-BBおよびSVRG-BBを導出すること。
  • SVRG-BBの線形収束を証明し、同時にSVRGのOption Iに対する線形収束の欠落していた証明を補完すること。
  • ロジスティック回帰およびSVM問題において、提案手法の性能を実験的に評価し、最先端のSGD変種と比較すること。

提案手法

  • 2つの連続する反復における反復値および勾配の差分を用いて、バーツィライ・ボーヴァイン(BB)法をSGDおよびSVRGに適応し、ステップサイズを計算する。
  • 各反復において、BBステップサイズは $ \eta_t = \frac{\|s_{t-1}\|^2}{\langle s_{t-1}, y_{t-1} \rangle} $ として計算され、ここで $ s_{t-1} = x_t - x_{t-1} $ および $ y_{t-1} = \nabla f_{i_t}(x_t) - \nabla f_{i_{t-1}}(x_{t-1}) $ である。
  • SGD-BBにおけるステップサイズの安定化のため、過去のステップサイズの移動平均を用いたスムージング技術を導入し、振動を防止する。
  • BB法はSAGフレームワークにも拡張され、SAG-BBが得られ、分散低減の性質を保ちつつ動的ステップサイズ適応を実現する。
  • 標準的なSGDおよびSVRGと同等の1反復あたりの計算コストを維持するようにアルゴリズムを設計し、実用的な効率性を確保する。
  • SVRG-BBの理論的収束解析を実施し、強い凸性および滑らかさの仮定の下で線形収束を証明した。

実験結果

リサーチクエスチョン

  • RQ1バーツィライ・ボーヴァイン法は、ラインサーチを必要とせず、確率的勾配降下法に効果的に適応され、自動的にステップサイズを計算できるか?
  • RQ2SVRG-BBは強い凸関数に対して線形収束を達成するか? そして、その収束は厳密に証明可能か?
  • RQ3SVRGのOption I(SVRG-I)の収束が線形であることは、これまでの文献では証明されていなかったが、その線形収束は正当に証明可能か?
  • RQ4SGD-BBおよびSVRG-BBの性能は、実世界の機械学習問題において、最適チューニング済みのステップサイズを用いたSGDおよびSVRGと比較してどうか?
  • RQ5BBステップサイズメカニズムは、SAGなどの他の分散低減SGD変種に対しても成功裏に拡張可能か?

主な発見

  • SVRG-BBは、強い凸関数に対して線形収束を示し、提案手法に対する理論的保証を確立した。
  • 副次的な成果として、文献において未だ証明がなかったSVRGのOption I(SVRG-I)の線形収束を証明した。
  • 数値実験の結果、SGD-BBはロジスティック回帰およびSVMタスクにおいて、最適チューニング済みのSGDと同等またはそれ以上の性能を示した。
  • SVRG-BBは、最適チューニング済みのステップサイズを用いたSVRGと同等またはそれ以上の性能を達成し、自動ステップサイズ選択の有効性を示した。
  • スムージング技術により、SGD-BBのステップサイズが安定化され、数エポック経過後には最適な減少ステップサイズに類似したトレンドに従うようになった。
  • AdaGrad、ラインサーチ付きSAG(SAG-L)、およびoLBFGSとの比較において、SGD-BBおよびSAG-BBは収束速度および局所最適性の観点で一貫してそれらを上回るか、同等の性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。