Skip to main content
QUICK REVIEW

[論文レビュー] Variance Reduction for Faster Non-Convex Optimization

Zeyuan Allen-Zhu, Elad Hazan|arXiv (Cornell University)|Mar 17, 2016
Stochastic Gradient Optimization Techniques参考文献 25被引用数 126
ひとこと要約

本論文は、非凸最適化に対する分散削減 stochastic 法を導入し、ε-stationary point に到達するための反復数 O(n^{2/3} / ε) を達成し、追加仮定なしで勾配降下法と SGD を上回る。

ABSTRACT

We consider the fundamental problem in non-convex optimization of efficiently reaching a stationary point. In contrast to the convex case, in the long history of this basic problem, the only known theoretical results on first-order non-convex optimization remain to be full gradient descent that converges in $O(1/\varepsilon)$ iterations for smooth objectives, and stochastic gradient descent that converges in $O(1/\varepsilon^2)$ iterations for objectives that are sum of smooth functions. We provide the first improvement in this line of research. Our result is based on the variance reduction trick recently introduced to convex optimization, as well as a brand new analysis of variance reduction that is suitable for non-convex optimization. For objectives that are sum of smooth functions, our first-order minibatch stochastic method converges with an $O(1/\varepsilon)$ rate, and is faster than full gradient descent by $Ω(n^{1/3})$. We demonstrate the effectiveness of our methods on empirical risk minimizations with non-convex loss functions and training neural nets.

研究の動機と目的

  • 非凸目的の stationary points を効率的に見つける動機づけ。
  • 非凸損失に適した分散削減アプローチで GD/SGD を改善する。
  • 証明可能な O(n^{2/3}L(f(x0)−f(x*)) / ε) 収束率を持つ SVRG ベースのアルゴリズムを開発する。
  • 非凸設定への分散削減手法を拡張し、分散上限を分析する。
  • 非凸損失を持つ ERM およびニューラルネットに対する経験的有効性を示す。

提案手法

  • 非凸目的の SVRG に類似した分散削減勾配推定量を採用する。
  • xs0 のスナップショット点と内部反復を持つエポック構造を用いて e∇k = ∇fi(xsk) − ∇fi(xs0) + ∇f(xs0) を形成する。
  • 内部反復長を m = n、ステップサイズ η = Θ(1/(n^{2/3}L)) に設定する。
  • 各エポックをサブエポックに分割して分散界を telescope し、ミラ―降下解析を活用する。
  • 勾配推定量の分散が O(∥xsk − xs0∥^2) により上界付けられることを示し、これを目的関数の減少と関連付ける。
  • ミニバッチ、非一様滑らかさ、および和集合の非凸目的への拡張について、アルゴリズムのバリエーションを提供する。

実験結果

リサーチクエスチョン

  • RQ1分散削減技術は、GD/SGD よりも非凸最適化における ε-stationary 点への収束を速められるか。
  • RQ2非凸目的に対する適切な分散界と解析技法は何か、それによりこの加速を実現できるか。
  • RQ3SVRG を非凸損失へ適用するには(スナップショット選択、エポック/サブエポック構造)はどうするべきか。
  • RQ4現実的には、非凸損失を持つ ERM およびニューラルネットに対してこれらの手法は適用可能か。

主な発見

  • 提案された非凸 SVRG バリアントは ε-stationary point を O(n^{2/3}L(f(x0)−f(x*)) / ε) の反復で達成する。
  • SVRG の各反復は SGD と同程度の速さで、全勾配-descent よりも n 倍高速であり、GD に対して理論的には Ω(n^{1/3}) の速度アップをもたらす。
  • 分散界は O(∥xsk − xs0∥^2) に確立されており、エポック/サブエポック解析による前進保証を可能にする。
  • m = n かつ η = Θ(1/(n^{2/3}L)) のとき、アルゴリズムは E[∥∇f(x)∥^2] ≤ O(L(f(xφ)−min f) / (S n^{1/3})) を満たす x を出力する。
  • 非凸損失を持つ ERM およびニューラルネットの実験では、SVRG は特に小さな ε および非凸損失に対して、訓練速度で SGD に追随するか上回ることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。