Skip to main content
QUICK REVIEW

[論文レビュー] Stochastic Nested Variance Reduction for Nonconvex Optimization

Dongruo Zhou, Pan Xu|arXiv (Cornell University)|Jun 20, 2018
Stochastic Gradient Optimization Techniques参考文献 45被引用数 39
ひとこと要約

本稿では、非凸有限和最適化のための新しい確率的1階アルゴリズムであるStochastic Nested Variance Reduction Gradient (SNVRG)を提案する。この手法は、分散の速やかな減少を実現するため、K+1個のネストされた基準点を用いて準確率的勾配を構築する。SNVRGは、$ widetilde{O}(n \land \epsilon^{-2} + \epsilon^{-3} \land n^{1/2}\epsilon^{-2})$ の改良された勾配複雑度を達成し、$ epsilon$-近似停留点を求める際に、従来の最先端手法(SVRG や SCSG)を上回る性能を発揮する。

ABSTRACT

We study finite-sum nonconvex optimization problems, where the objective function is an average of $n$ nonconvex functions. We propose a new stochastic gradient descent algorithm based on nested variance reduction. Compared with conventional stochastic variance reduced gradient (SVRG) algorithm that uses two reference points to construct a semi-stochastic gradient with diminishing variance in each iteration, our algorithm uses $K+1$ nested reference points to build a semi-stochastic gradient to further reduce its variance in each iteration. For smooth nonconvex functions, the proposed algorithm converges to an $ε$-approximate first-order stationary point (i.e., $\| abla F(\mathbf{x})\|_2\leq ε$) within $ ilde O(n\land ε^{-2}+ε^{-3}\land n^{1/2}ε^{-2})$ number of stochastic gradient evaluations. This improves the best known gradient complexity of SVRG $O(n+n^{2/3}ε^{-2})$ and that of SCSG $O(n\land ε^{-2}+ε^{-10/3}\land n^{2/3}ε^{-2})$. For gradient dominated functions, our algorithm also achieves better gradient complexity than the state-of-the-art algorithms. Thorough experimental results on different nonconvex optimization problems back up our theory.

研究の動機と目的

  • 既存の分散低減手法を超えた非凸有限和最適化における勾配複雑度のギャップを埋めること。
  • 滑らかさと確率的勾配分散の有界性の仮定のみを維持しつつ、$n$ と $\epsilon$ に依存する勾配複雑度を低減すること。
  • 非凸設定における収束速度の向上を実現する、複数の基準点を用いた分散低減技術を開発すること。
  • ネストされた分散低減が、SVRG や SCSG のような2基準点手法よりも速やかな収束をもたらすか、理論的および実験的に検証すること。

提案手法

  • アルゴリズムは、分散の低下がSVRG や SCSG よりも速い準確率的勾配を構築するために、$K+1$ 個のネストされた基準点を用いる。
  • 各反復において、複数のネストレベルにわたる現在の勾配と過去の基準点勾配の差の重み付き和として勾配が計算される。
  • マルチエポックフレームワークに基づき、各エポックは $K$ レベルのネストループを含み、各レベルには独自のバッチサイズとステップ数が設定される。
  • 最終反復は、反復列から一様にランダムに選択され、ロバストネスと収束保証を確保する。
  • アルゴリズムは、階層的な基準点更新により、低メモリ使用量を維持しながらも、より速い分散低減を実現するように設計されている。
  • 理論的解析では、ネストされた期待値および分散分解を用いて、勾配の期待ノルムを上限で制約する。

実験結果

リサーチクエスチョン

  • RQ1分散低減におけるネストされた基準点は、非凸有限和最適化においてより速い収束をもたらすか?
  • RQ2同一の仮定下で、提案されたSNVRGアルゴリズムはSVRG や SCSG よりも優れた勾配複雑度を達成するか?
  • RQ3改善された収束速度を達成しつつ、計算オーバーヘッドを低く保てるか?
  • RQ4理論的改善が、標準的な非凸機械学習ベンチマークにおいて実験的に観察可能か?

主な発見

  • 提案されたSNVRGアルゴリズムは、滑らかな非凸有限和問題において、$ epsilon$-近似停留点を求める勾配複雑度として $\widetilde{O}(n \land \epsilon^{-2} + \epsilon^{-3} \land n^{1/2}\epsilon^{-2})$ を達成する。
  • これは、SVRGの最良の $O(n + n^{2/3}\epsilon^{-2})$ よりも改善されており、SCSGの $O(n \land \epsilon^{-2} + \epsilon^{-10/3} \land n^{2/3}\epsilon^{-2})$ よりも優れている。
  • 勾配優位関数では、SNVRGは最先端のアルゴリズムよりも優れた勾配複雑度を達成しており、そのより広範な適用可能性を裏付けている。
  • MNIST、CIFAR-10、SVHN データセットにおける包括的な実験により、SNVRGが訓練損失とテスト誤差の両面で、SGD、SGDモーメンタム、ADAM、SCSG、およびベースラインのSVRGを常に上回ることが示された。
  • 学習率スケーリングを用いる際、特に異なるデータセットやハイパーパramータ設定において、安定的かつ速やかな収束を示した。
  • 実験結果は理論的主張を強く支持しており、勾配分散の低減と収束速度の向上に、ネストされた分散低減が有効であることを実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。