Skip to main content
QUICK REVIEW

[論文レビュー] Theory of Deep Learning IIb: Optimization Properties of SGD

Chiyuan Zhang, Qianli Liao|arXiv (Cornell University)|Jan 7, 2018
Domain Adaptation and Few-Shot Learning参考文献 1被引用数 45
ひとこと要約

本論文は過剰パラメータ化された深層ネットにおける SGD/SGDL を分析し、ノイズ駆動の SGD が、平坦で大容量の局所解に収束することを主張する。理論と実験で裏付け、自然ラベルとランダムラベルを対比している。

ABSTRACT

In Theory IIb we characterize with a mix of theory and experiments the optimization of deep convolutional networks by Stochastic Gradient Descent. The main new result in this paper is theoretical and experimental evidence for the following conjecture about SGD: SGD concentrates in probability -- like the classical Langevin equation -- on large volume, "flat" minima, selecting flat minimizers which are with very high probability also global minimizers

研究の動機と目的

  • 深層学習における収束を超えた最適化の理解を促進し、過剰パラメータ化されたネットワークにおける minima を形成する上で SGD の役割に焦点を当てる。
  • SGD のダイナミクスを Langevin 式の挙動および Boltzmann 分布と理論的に結びつけ、平坦な minima の選択を説明する。
  • 自然ラベルとランダムラベルを比較する実証的研究を通じて、平坦性と汎化の側面を示す。

提案手法

  • SGD を勾配ノイズを xi_t としてモデル化した確率的最適化プロセスとして、f_{t+1} = f_t - gamma_t(nabla I_{S_n}(f_t) + xi_t) を示す。
  • Langevin ダイナミクスを用いて SGD を経験的リスク U 上の Boltzmann 分布 p(f) ~ exp(-U/T) に関連付ける。
  • SGDL が劣化のない(平坦な)極小値を好み、同じ深さの極小値の中ではより大きな体積を持つものを選好する、特に高次元空間で。
  • CIFAR-10 および MNIST の周りの極小値に対する風景の平坦さを定量化するために等方的な平坦性テストと三点補間を用いる。
  • 自然ラベル設定とランダムラベル設定を比較し、自然ラベルの方が平坦な領域が大きいことを示す。
  • 平坦な minima と頑健な最適化/マージンとの定性的な関係を示し、理論 III で詳述される。

実験結果

リサーチクエスチョン

  • RQ1SGD は過剰パラメータ化された深層ネットで平坦で大容量の極小値に集中するのか?
  • RQ2SGD の確率的性質(および SGDL)が高次元の風景における全局極小値の選択にどのように影響するのか?
  • RQ3自然ラベルとランダムラベルを用いた場合、最適化風景にどのような違いが生じるのか?
  • RQ4 Langevin 型のダイナミクスは、典型的な深層学習のレジームにおいて SGD の有効な近似となるのか?
  • RQ5平坦さはロバスト性、マージン、汎化とどのように関係するのか、深層ネットワークにおいて?

主な発見

  • SGD はミニバッチからの勾配ノイズにより離散化された Langevin 拡散のように振る舞う。
  • SGDL によって誘導される漸近的 Boltzmann 分布は、平坦で大容量の極小値に集中し、同じ深さにおいては縮退性を好む。
  • 高次元では、より等方的な平坦領域を持つ極小値が SGDL の下で起こりやすく、平坦で頑健な解に偏ることを示唆している。
  • 実験は自然ラベル設定の方が、平坦性テストによって定量化される通り、ランダムラベル設定より極小値周りに大きな平坦領域を示している。
  • 過剰パラメータ化の領域における零誤差解は平坦な領域に位置する傾向が強く、軸に沿ったより深い極小値は、平坦でない限りは好まれない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。