Skip to main content
QUICK REVIEW

[論文レビュー] Gradient Descent Finds Global Minima of Deep Neural Networks

Simon S. Du, Jason D. Lee|arXiv (Cornell University)|Nov 9, 2018
Sparse and Compressive Sensing Techniques参考文献 47被引用数 198
ひとこと要約

本論文は、残差接続を持つ過剰パラメータ化されたディープニューラルネットワーク(ResNet)に対して、勾配降下法が訓練損失を多項式時間内にゼロにできることを証明し、畳み込みResNetへも拡張できることを、訓練中のグラム行列の安定性を分析することによって示す。

ABSTRACT

Gradient descent finds a global minimum in training deep neural networks despite the objective function being non-convex. The current paper proves gradient descent achieves zero training loss in polynomial time for a deep over-parameterized neural network with residual connections (ResNet). Our analysis relies on the particular structure of the Gram matrix induced by the neural network architecture. This structure allows us to show the Gram matrix is stable throughout the training process and this stability implies the global optimality of the gradient descent algorithm. We further extend our analysis to deep residual convolutional neural networks and obtain a similar convergence result.

研究の動機と目的

  • 深いネットワークにおいて、ランダムに初期化された勾配法が訓練損失をゼロにする理由を理解する動機付け。
  • 深い全結合ネットワーク、ResNet、畳み込みResNetアーキテクチャに対して、勾配降下法がグローバルミニマムに収束する条件を確立する。
  • 訓練ダイナミクスの厳密な安定性解析を可能にする活性化関数とアーキテクチャの仮定を開発する。

提案手法

  • 深層ネットワークの訓練ダイナミクスを捉えるグラム行列フレームワークを定義する。
  • 十分な幅を取ると、初期化時のグラム行列がデータとアーキテクチャに依存する極限値に近く、訓練中も安定であることを示す。
  • 極限グラム行列の最小固有値と収束速度を関連付けるべく、パワー法風の議論を用いる。
  • 全結合、ResNet、畳み込みResNetに対するグラム行列のアーキテクチャ特有の再帰的定義を導出し、層間の摂動を評価する。
  • ResNetではスキップ接続のおかげで摂動の伝播が緩和され、深さに対する指数的依存を低減することを示す。
  • 適切なステップサイズと過剰パラメータ化のもとで、勾配降下法の線形収束率を示す収束定理を提示する。

実験結果

リサーチクエスチョン

  • RQ1残差接続を持つ深く過剰パラメータ化されたネットワークに対して、勾配降下法は訓練損失をゼロに達成できるか。
  • RQ2ネットワークの幅とアーキテクチャ(全結合対ResNet対畳み込みResNet)が、必要な過剰パラメータ化と収束速度にどう影響するか。
  • RQ3グラム行列が全局収束を保証するうえで果たす役割と、訓練中の安定性はどの程度か。
  • RQ4グラム行列の正定性とした収束を確保するために必要な活性化関数とデータの仮定は何か。

主な発見

  • 深い全結合ネットワークでは、十分な幅 m により、指定された初期化とデータ仮定の下で、勾配降下法は訓練損失を線形収束でゼロに収束させる。
  • ResNet アーキテクチャでは、層ごとの必要幅は全結合ネットより深さとともにゆっくり増加し、収束保証に多項式的な深さ依存をもたらす。
  • 畳み込みResNetでは、データサイズ、パッチ数、深さに対して幅が多項式に比例する条件下で、訓練損失をゼロへ収束させる。
  • 解析は、グラム行列 G(H)(k) がデータとアーキテクチャに依存する極限値 K(H) に近い状態を保ち、K(H) の最小固有値が厳密に正であることが線形収束を保証することを示す。
  • ResNet のスキップ接続は摂動を安定化させ、幅の深さ依存を指数的にすることを回避し、深さに対する多項式依存を可能にする。
  • 結果は、滑らかな活性化関数(例: softplus)および解析的な非多項式活性化関数に対しても、ランダムなガウス初期化と2次損失の下で成り立つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。