Skip to main content
QUICK REVIEW

[論文レビュー] Escaping Saddles with Stochastic Gradients

Hadi Daneshmand, Jonas Köhler|arXiv (Cornell University)|Mar 15, 2018
Stochastic Gradient Optimization Techniques参考文献 23被引用数 57
ひとこと要約

本論文は、確率勾配が相関した負曲率を持ち、等方性ノイズなしで鞍点を脱出できることを示し、CNC仮定のもとでSGDの一次・二次収束率が次元に依存しないことを示している。

ABSTRACT

We analyze the variance of stochastic gradients along negative curvature directions in certain non-convex machine learning models and show that stochastic gradients exhibit a strong component along these directions. Furthermore, we show that - contrary to the case of isotropic noise - this variance is proportional to the magnitude of the corresponding eigenvalues and not decreasing in the dimensionality. Based upon this observation we propose a new assumption under which we show that the injection of explicit, isotropic noise usually applied to make gradient descent escape saddle points can successfully be replaced by a simple SGD step. Additionally - and under the same condition - we derive the first convergence rate for plain SGD to a second-order stationary point in a number of iterations that is independent of the problem dimension.

研究の動機と目的

  • SGDを用いた非凸最適化における鞍点脱出の難しさを動機づける。
  • 確率的勾配のCorrelated Negative Curvature (CNC)仮定を導入する。
  • 等方性摂動なしでSGDが二次停留点へ収束できることを示す。
  • CNCの下で問題の次元数に依存しない収束速度を提供する。
  • 半空間の学習に対する理論的検証と、ニューラルネットワークでの経験的検証を行う。

提案手法

  • CNCを定義する: 最小Hessian固有ベクトルへの確率勾配の射影が二次モーメントが一様にゼロから離れて下界を持つ(gamma)。
  • 滑らかさ仮定の下で、SGDステップで摂動を受けるGD(CNC-PGD)と摂動なしのSGD(CNC-SGD)を検討する。
  • 定理1を証明する: CNC-PGDは高確率で O((ell L)^4 (delta gamma epsilon)^{-2} log(...)) 手順で (epsilon, sqrt(rho) epsilon^{2/5})-二次停留点を見つける。
  • 定理2を証明する: CNC-SGDは高確率で O((L^3 ell^{10})/(delta^4 gamma^4) * epsilon^{-10} log^2(...)) 手順で (epsilon, sqrt(rho) epsilon)-二次停留点を見つける。
  • 半空間の学習に対してCNCが成り立つことを示す(射影勾配分散の下限を用いて)。
  • ニューラルネットワークにおいて確率勾配が負の曲率方向に沿って有意な分散を持つという実証的証拠を提供する。

実験結果

リサーチクエスチョン

  • RQ1より弱いCNC仮定の下で、SGDは明示的な等方ノイズなしに鞍点を脱出できるか。
  • RQ2CNC-PGDとCNC-SGDによって達成可能な二次停留点への収束速度はどの程度で、次元依存性はあるか。
  • RQ3半空間の学習やニューラルネットワークの学習といった実用的な問題に対してCNC条件は成り立つか。
  • RQ4負の曲率方向に沿った確率勾配の分散はヘシアンの固有値とネットワークの幅/深さに対してどう振る舞うか。
  • RQ5ニューラルネットワークでの経験的結果はCNC仮説と最適化ダイナミクスへの影響を支持するか。

主な発見

  • CNCの下で、CNC-PGDはポリ(log)反復回数で、明示的な等方ノイズなしに (epsilon, sqrt(rho) epsilon^{2/5})-二次停留点を達成する。
  • CNCの下で、CNC-SGDはおよそ epsilon^{-10} 回の反復で (epsilon, sqrt(rho) epsilon)-二次停留点に達し、次元非依存の収束を示す。
  • 確率勾配は負の曲率方向に沿って強い成分を示し、これらの方向の分散は対応する固有値に比例し、次元によって減衰しない。
  • 半空間の学習では、確率勾配に対してCNCが成り立つことを示し、追加の摂動なしに収束保証を可能にする。
  • MNISTの経験的結果は、最小曲率方向に沿った確率勾配の分散がネットワークの幅/深さに依存せず維持されることを示し、CNCの適用性を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。