Skip to main content
QUICK REVIEW

[論文レビュー] Towards moderate overparameterization: global convergence guarantees for training shallow neural networks

Samet Oymak, Mahdi Soltanolkotabi|arXiv (Cornell University)|Feb 12, 2019
Stochastic Gradient Optimization Techniques参考文献 44被引用数 86
ひとこと要約

本論文は、滑らかな活性化関数または ReLU を用いた1隠れ層ニューラルネットワークにおける勾配降下法(および SGD)が、パラメータ数がデータサイズを定数倍以上上回ると、訓練データを完全に補完するグローバル最適解へ収束することを示す。具体的には、滑らかな場合は kd^? ≥ n^2、ReLU の場合は up to n^2/d まで、速い幾何収束率で収束する。

ABSTRACT

Many modern neural network architectures are trained in an overparameterized regime where the parameters of the model exceed the size of the training dataset. Sufficiently overparameterized neural network architectures in principle have the capacity to fit any set of labels including random noise. However, given the highly nonconvex nature of the training landscape it is not clear what level and kind of overparameterization is required for first order methods to converge to a global optima that perfectly interpolate any labels. A number of recent theoretical works have shown that for very wide neural networks where the number of hidden units is polynomially large in the size of the training data gradient descent starting from a random initialization does indeed converge to a global optima. However, in practice much more moderate levels of overparameterization seems to be sufficient and in many cases overparameterized models seem to perfectly interpolate the training data as soon as the number of parameters exceed the size of the training data by a constant factor. Thus there is a huge gap between the existing theoretical literature and practical experiments. In this paper we take a step towards closing this gap. Focusing on shallow neural nets and smooth activations, we show that (stochastic) gradient descent when initialized at random converges at a geometric rate to a nearby global optima as soon as the square-root of the number of network parameters exceeds the size of the training data. Our results also benefit from a fast convergence rate and continue to hold for non-differentiable activations such as Rectified Linear Units (ReLUs).

研究の動機と目的

  • 高次パラメータ化した浅いネットにおける1次メソッドのグローバル収束に必要な過parameterization の水準を動機付けて定量化する。
  • ランダムに初期化された勾配降下が、全訓練データを補完するグローバル最適解へ幾何的に収束することを示す。
  • ReLU 活性化と SGD への結果の拡張、収束保証と速さを提供する。
  • 過度に広いネットだけでなく、中程度の過parameterization で実務と理論のギャップを埋めることを示す。

提案手法

  • 固定された v を持ち、W を訓練する二次損失の下で f(x;W)=v^T φ(Wx) の1隠れ層ネットを解析する。
  • 勾配降下法と SGD の更新規則を導出し、kd を n およびデータ特性と関連づけて条件を確立する。
  • Khatrio-Rao 積と Hadamard 積のスペクトル特性、およびランダム行列理論を用いて初期化時のヤコビ行列のスペクトルを境界づける。
  • 幾何収束率を証明:||f(W_τ)-y||_2 が (1 - c μ^2/B^2 …)^τ の形でと高確率で減衰する。
  • 標準データモデル(例:単位球面上のランダムデータ)に対する系統的な推奨として、kd ≳ n^2 のスケーリングを示すコロラリーを提供。
  • ReLU 活性化にも適用し、過parameterization の要件と同様の収束命題を調整して拡張する。

実験結果

リサーチクエスチョン

  • RQ1浅いネットでゼロ訓練誤差を達成するために必要な最小の過parameterization は何か?
  • RQ2kd がデータサイズを一定因子以上上回る場合、ランダム初期化と1次方法はグローバル最適解へ収束するか?
  • RQ3滑らかな活性化と ReLU 活性化は必要な過parameterizationと収束速度にどのような違いがあるか?
  • RQ4SGD の更新は全バッチ勾配降下法で観察されたグローバル収束保証を継承するか?
  • RQ5中程度の過parameterization 条件下での理論と実践のギャップについて、これらの結果は何を意味するか?

主な発見

  • 滑らかな活性化を用いた1隠れ層ネットワークにおける勾配降下は、初期化後すぐに訓練データを完全に適合するグローバル最適解へ幾何的に収束する。条件は sqrt(kd) ≥ c (B^2/μ_φ^2) (1+δ) κ(X) n。
  • ReLU 活性化の場合も同様の保証が成立し、sqrt(kd) ≥ C (1+δ) n^2/d κ^3(X) σ_min^2(X*X) 。
  • コロラリーは、ランダムデータ設定で典型的に kd ≳ n^2 のスケーリングが十分であることを示す;n ≲ d の場合、境界は k ≳ n に簡略化され、次元に依存しない収束となる。
  • ランダム初期化を用いた SGD も、初期化近傍を保ちつつ高速収束を達成し、適切なパラメータ下で GD に近い速さでグローバル最適解に近づく。
  • 数値実験は、成功確率が n=kd の境界付近で揺らぐ相での位相遷移を示し、実務上の過parameterization がこの閾値に近い可能性を示唆する。
  • この研究はカーネル風のランダム特徴の直感(k ≲ n)と、過parameterization が中程度の領域でのより深い最適化保証を結びつける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。