Skip to main content
QUICK REVIEW

[論文レビュー] An Alternative View: When Does SGD Escape Local Minima?

Robert Kleinberg, Yuanzhi Li|arXiv (Cornell University)|Feb 17, 2018
Stochastic Gradient Optimization Techniques参考文献 9被引用数 42
ひとこと要約

本論文は、SGD を損失の畳み込み(平滑化)版上の最適化として分析し、畳み込み関数がターゲット x* に向かって一点強凸であるなら、SGD が一定の確率で x* に近づき、そこにとどまることを示す。これにより、なぜ SGD が鋭い局所最小値を回避するのかが説明される。

ABSTRACT

Stochastic gradient descent (SGD) is widely used in machine learning. Although being commonly viewed as a fast but not accurate version of gradient descent (GD), it always finds better solutions than GD for modern neural networks. In order to understand this phenomenon, we take an alternative view that SGD is working on the convolved (thus smoothed) version of the loss function. We show that, even if the function $f$ has many bad local minima or saddle points, as long as for every point $x$, the weighted average of the gradients of its neighborhoods is one point convex with respect to the desired solution $x^*$, SGD will get close to, and then stay around $x^*$ with constant probability. More specifically, SGD will not get stuck at "sharp" local minima with small diameters, as long as the neighborhoods of these regions contain enough gradient information. The neighborhood size is controlled by step size and gradient noise. Our result identifies a set of functions that SGD provably works, which is much larger than the set of convex functions. Empirically, we observe that the loss surface of neural networks enjoys nice one point convexity properties locally, therefore our theorem helps explain why SGD works so well for neural networks.

研究の動機と目的

  • 損失関数の畳み込み版上で動作するという SGD の代替的な見方を動機づけ、形式化する。
  • 畳み込み後の関数の一点凸性を通じて、f が多くの悪い局所 minima や鞍点を持つ場合でも、SGD が良い局所最小値へ収束し得ることを示す。
  • SGD が理論的にターゲット解の近くにとどまり、鋭い最小値から抜け出す現実的な条件を特定する。

提案手法

  • 畳み込み損失 g_t(y)=E_{ω∈W(x)}[f(y−ηω)] を導入する。
  • 解析系列 y_t = x_t − η ∇f(x_t) を定義し、SGD を g_t 上の勾配降下法と関連づける。
  • 仮定1(主仮定): ノイズと畳み込み後、f は x* を基準として c-one-point 強凸となる。
  • 定理4を証明: 適切な η、r(ノイズ境界)、および c に対して、SGD は将来の時間範囲内で y_t を x* から O(η r^2 / c) の範囲に一定の確率で保つ。
  • 系後 Corollary 2(学習率の縮小): ステージドな学習率を用いることで局所収束が改善される。
  • 局所的な損失表面が一点凸性を示す性質を経験的に観察し、ステップサイズの役割を説明する。

実験結果

リサーチクエスチョン

  • RQ1勾配ノイズによる平滑化効果の下で、どのような条件で SGD は鋭い局所 minima から脱出するか。
  • RQ2畳み込み後の損失の一点凸性が SGD がターゲット解の近くにとどまることを保証するか、そしてステップサイズとノイズに関する定量的影響は何か。
  • RQ3学習率スケジュールが畳み込みベースの見方とどのように相互作用して、良い局所最小値への収束に影響を与えるか。

主な発見

  • SGD は損失の畳み込み(平滑化)版上で作用し、鋭い局所 minima を排除できる。
  • 畳み込み後の損失が x* に向かって c-one-point 強凸である場合、SGD は x* に収束し、一定確率でそこを保つ。
  • η が適切に小さく、ノイズが有界であるとき、時間窓内で x* からの近接性が O(η r^2 / c) のオーダーであるという定量的境界が示される。
  • 元の関数の一点凸性がある場合でも、ステップサイズが大きすぎると収束を妨げ、全勾配法が x* から発散する可能性がある。
  • 実証的には、現代のニューラルネットワークは損失表面に局所的な一点凸性を示し、提案理論を支持している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。