Skip to main content
QUICK REVIEW

[論文レビュー] Convergence Analysis of Two-layer Neural Networks with ReLU Activation

Yuanzhi Li, Yuan Yang|arXiv (Cornell University)|May 28, 2017
Stochastic Gradient Optimization Techniques参考文献 23被引用数 273
ひとこと要約

この論文は、Gaussian入力下で、恒等写像を持つ二層 ReLU ネットワークに対する SGD がグローバル最小値へ収束することを、二段階の収束フレームワークを用いて証明し、補足的な実験を提供する。

ABSTRACT

In recent years, stochastic gradient descent (SGD) based techniques has become the standard tools for training neural networks. However, formal theoretical understanding of why SGD can train neural networks in practice is largely missing. In this paper, we make progress on understanding this mystery by providing a convergence analysis for SGD on a rich subset of two-layer feedforward networks with ReLU activations. This subset is characterized by a special structure called "identity mapping". We prove that, if input follows from Gaussian distribution, with standard $O(1/\sqrt{d})$ initialization of the weights, SGD converges to the global minimum in polynomial number of steps. Unlike normal vanilla networks, the "identity mapping" makes our network asymmetric and thus the global minimum is unique. To complement our theory, we are also able to show experimentally that multi-layer networks with this mapping have better performance compared with normal vanilla networks. Our convergence theorem differs from traditional non-convex optimization techniques. We show that SGD converges to optimal in "two phases": In phase I, the gradient points to the wrong direction, however, a potential function $g$ gradually decreases. Then in phase II, SGD enters a nice one point convex region and converges. We also show that the identity mapping is necessary for convergence, as it moves the initial point to a better place for optimization. Experiment verifies our claims.

研究の動機と目的

  • 理論的理解を動機づけ、なぜ SGD が実践でニューラルネットワークを訓練できるのかを説明する。
  • 対称性を崩し最適化を容易にするため、恒等写像を持つ二層 ReLU ネットワークを導入する。
  • Gaussian入力下で小さな初期化から ground truth W* へ二段階収束を証明する。
  • 収束と性能に対する恒等写像の必要性と効果を示す。
  • 理論と観測された学習ダイナミクスを一致させる実験的証拠を提供する。

提案手法

  • 恒等写像を持つ二層 ReLU ネットワークをモデル化し解析する: f(x,W)=||ReLU((I+W)^T x)||1。
  • 学生ネットワークと教師ネットワーク間のl2損失を用いる: L(W)=E_x[(f(x,W)−f(x,W∗))^2]。
  • 収束を調べるためにポテンシャル関数 g = ∑_i (||e_i+w_i∗||^2 − ||e_i+w_i||^2) を定義する。
  • 二段階の SGD 収束フレームワークを確立する:Phase I は g を低減し領域へ近づける;Phase II は one-point convexity を達成して W∗ へ収束する。
  • 相関する ReLU アクティベーションと W・W∗ の依存性を扱うための結合Taylor近似を導入する。
  • 指定されたノルムと初期化の下で、ノイズが有界な小ステップ SGD が収束することを証明する。

実験結果

リサーチクエスチョン

  • RQ1Gaussian入力下で恒等写像を持つ二層 ReLU ネットワークに対して、 SGD は ground-truth 重み W∗ へ収束するか。
  • RQ2恒等写像は何故ロスランドスケープと収束性を従来のネットワークと比較して変えるのか。
  • RQ3小さな初期化からの収束を保証する二段階フレームワーク(ポテンシャルベース Phase I と凸 Phase II)を提供し得るか。
  • RQ4W0 と W∗ のスペクトルノルム境界と初期化が収束に与える役割は何か。
  • RQ5ガウス分布以外のモデストな分布仮定下で理論的洞察は頑健か。

主な発見

  • Gaussian入力と小さな初期化が与えられれば、 SGD は多項式ステップで地上の真の W∗ へ収束する。
  • 収束は二つのフェーズで進行する:Phase I がポテンシャル g を低減し有利な領域へ移動する;Phase II が one-point convexity を達成して W∗ へ収束する。
  • 恒等写像は初期点を容易な最適化領域へ移動させるために必要であり、解析された領域において唯一のグローバル最小値を生み出す。
  • ゼロ初期化は恒等写像がある場合随机初期化と同等の性能を示すことがあり、写像によって生じる非対称性を示す。
  • 実験では恒等写像を持つネットワークが vanilla ネットワークより優れており、スキップ接続を持つ ResNet 的構造が CIFAR-10 で訓練・テスト性能を改善する。
  • このフレームワークと結果は、回転不変またはほぼガウス分布入力と合理的な W∗ のスペクトルノルムの下で定性的に妥当であり続ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。