QUICK REVIEW

[論文レビュー] On the diffusion approximation of nonconvex stochastic gradient descent

Wenqing Hu, Chris Junchi Li|arXiv (Cornell University)|May 22, 2017

Stochastic Gradient Optimization Techniques参考文献 34被引用数 29

ひとこと要約

本稿は、小さなステップサイズの下でマスター方程式フレームワークを用いて、非凸な確率的勾配降下法（SGD）の厳密な弱拡散近似を確立し、SGDが局所的最小値から指数関数的に速く、サドル点からほとんど線形に速く（逆ステップサイズに依存して）脱出することを示している。ノイズ構造に依存する。小さなバッチサイズが鋭い最小値や不安定な点からの脱出を促進することを示しており、深層学習における一般化性能の向上に向けた適応的バッチサイズスケジューリングを支持する。

ABSTRACT

We study the Stochastic Gradient Descent (SGD) method in nonconvex optimization problems from the point of view of approximating diffusion processes. We prove rigorously that the diffusion process can approximate the SGD algorithm weakly using the weak form of master equation for probability evolution. In the small step size regime and the presence of omnidirectional noise, our weak approximating diffusion process suggests the following dynamics for the SGD iteration starting from a local minimizer (resp.~saddle point): it escapes in a number of iterations exponentially (resp.~almost linearly) dependent on the inverse stepsize. The results are obtained using the theory for random perturbations of dynamical systems (theory of large deviations for local minimizers and theory of exiting for unstable stationary points). In addition, we discuss the effects of batch size for the deep neural networks, and we find that small batch size is helpful for SGD algorithms to escape unstable stationary points and sharp minimizers. Our theory indicates that one should increase the batch size at later stage for the SGD to be trapped in flat minimizers for better generalization.

研究の動機と目的

小さなステップサイズの下で、マスター方程式を用いて非凸SGDの弱拡散近似を厳密に確立すること。
大偏差理論と抜出自時刻理論を用いて、不安定な定常点（サドル点）および局所的最小値からのSGDの脱出ダイナミクスを分析すること。
バッチサイズがSGDダイナミクスに与える役割と、深層ニューラルネットワークにおける一般化に与える影響を調査すること。
特に後期の訓練段階でバッチサイズを増やす戦略を支援する理論的根拠を提供すること。

提案手法

マスター方程式の弱形を用いて、離散的SGD反復を確率的微分方程式（SDE）による形式的弱近似として行う。
大偏差理論を応用して、局所的最小値からの脱出時間の特性を明らかにし、逆ステップサイズに指数関数的に依存することを示す。
不安定な定常点からの脱出時間理論を用いて、逆ステップサイズにほぼ線形に依存する脱出スケーリングを導出する。
全方向性ノイズの下での拡散過程を分析し、SGDの確率的ダイナミクスをモデル化する。
バッチサイズとノイズレベル、拡散係数との関係を示すミニバッチSGDの拡散近似を導出する。
全結合ネットワークを用いたMNISTにおける数値的検証を行い、大規模バッチと小規模バッチの方法を重み軌道の拡散とテスト精度の観点から比較する。

実験結果

リサーチクエスチョン

RQ1拡散近似フレームワークは、非凸最適化における局所的最小値およびサドル点からのSGDの脱出ダイナミクスをどのように説明するか？
RQ2不安定な定常点および局所的最小値からの脱出時間は、ステップサイズおよびノイズ構造に対してどのようにスケーリングされるか？
RQ3バッチサイズはSGDの拡散係数とランダムネスにどのように影響を与え、収束性および一般化性能にどのような効果を及えるか？
RQ4拡散近似フレームワークは、深層学習における一般化性能の向上を目的とした適応的バッチサイズスケジューリング戦略を正当化できるか？
RQ5全方向性ノイズは、鋭い最小値およびサドル点からの迅速な脱出をどのように可能にするか？

主な発見

局所的最小値からの脱出時間は、逆ステップサイズに指数関数的に依存しており、小さなステップサイズと十分なノイズの下で迅速な脱出を示している。
サドル点からの脱出時間は、逆ステップサイズにほぼ線形に依存しており、以前に報告されたO(η−2)のレートよりも著しく速いことを示唆している。
小さなバッチサイズは、より高い全方向性ノイズを生成し、拡散過程を強化することで、鋭い最小値および不安定な定常点からの脱出をより速く可能にする。
大規模バッチサイズは、低い拡散係数を引き起こし、SGDが一般化性能が悪い鋭い最小値に収束することを招く。これはMNISTにおける数値実験で確認された。
数値結果は、小規模バッチ手法がより大きな重み軌道の拡散とより良いテスト精度を示す一方で、大規模バッチ手法は高い訓練精度だが低いテスト精度を示すことを裏付けている。
本研究は、後期の訓練段階でバッチサイズを増やすことで、SGDをより平坦な最小値に閉じ込め、一般化性能を向上させることの推奨を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。