Skip to main content
QUICK REVIEW

[論文レビュー] Generalization Error Bounds of Gradient Descent for Learning Over-parameterized Deep ReLU Networks

Yuan Cao, Quanquan Gu|arXiv (Cornell University)|Feb 4, 2019
Machine Learning and ELM参考文献 90被引用数 68
ひとこと要約

本論文は、過パラメータ化された深い ReLU ネットワークに対する勾配降下法のアルゴリズム依存の一般化境界を導出し、幅広いネットワークの特定のデータ仮定の下で、GD が任意に小さな一般化誤差を達成し得ることを証明する。

ABSTRACT

Empirical studies show that gradient-based methods can learn deep neural networks (DNNs) with very good generalization performance in the over-parameterization regime, where DNNs can easily fit a random labeling of the training data. Very recently, a line of work explains in theory that with over-parameterization and proper random initialization, gradient-based methods can find the global minima of the training loss for DNNs. However, existing generalization error bounds are unable to explain the good generalization performance of over-parameterized DNNs. The major limitation of most existing generalization bounds is that they are based on uniform convergence and are independent of the training algorithm. In this work, we derive an algorithm-dependent generalization error bound for deep ReLU networks, and show that under certain assumptions on the data distribution, gradient descent (GD) with proper random initialization is able to train a sufficiently over-parameterized DNN to achieve arbitrarily small generalization error. Our work sheds light on explaining the good generalization performance of over-parameterized deep neural networks.

研究の動機と目的

  • 過パラメータ化された深い ReLU ネットワークに対して、なぜ勾配降下法が良い一般化をもたらすことができるのかを説明する。
  • 均一収束境界を改善するアルゴリズム依存の一般化境界を提供する。
  • 過パラメータ化の下で、勾配降下法が初期付近のグローバル最小値へ収束することを示す。
  • GD が多項式個のサンプルで epsilon-一般化を達成する二つのデータ分布仮定を分析する。

提案手法

  • クロスエントロピー損失で訓練された L-層全結合 ReLU ネットワークを用いた二値分類を勾配降下法で研究する。
  • He 初期化におけるガウス分布で重みを初期化し、経験リスクを最小化するよう GD を実行する。
  • 初期化の周りに tau-近傍を定義し、Rademacher 複雑さを用いて一般化ギャップを境界付けする。
  • 最適化と一般化性能を関連付けるために、経験的および母集団代替誤差を導入する。
  • 勾配下限条件(定理 4.7)下で tau-近傍内のグローバル最小値への GD の収束を証明する。
  • 二つのデータ分布仮定(Separable by Random ReLU Feature および Separable by Conjugate Kernel)を提供し、epsilon-一般化境界を与える系とをコロラリィとして示す。

実験結果

リサーチクエスチョン

  • RQ1どのようなデータ分布条件下で、GD は過パラメータ化された深い ReLU ネットワークを訓練して小さな一般化誤差を達成できるか?
  • RQ2過パラメータ化領域において、アルゴリズム依存の一般化境界はネットワーク幅とどのようにスケールするか?
  • RQ3深い ReLU ネットワークに対して、勾配降下法が初期化に近いグローバル最小値へ収束できるか、そして必要な幅と初期化条件は何か?
  • RQ4Random ReLU Features による separability または Conjugate Kernel による separability を前提とした場合の、一般化保証への具体的な含意は何か?

主な発見

  • 非正式な結果として、各層の幅 m_l = tilde Omega(epsilon^-14) および n = tilde Omega(epsilon^-4) では、適切な初期化を用いた GD は高い確率で集団誤差を at most epsilon に達成する。
  • 定理 4.5 の一般化境界は tau と m にスケールし、He 初期化下で一般化ギャップの境界はおおむね tilde O(tau * sqrt(m/n))、以前の境界より幅の依存性を改善している。
  • 勾配降下法が tau-近傍内のグローバル最小へ収束することが示されており、これは sqrt(m) に比例する勾配下限条件による。
  • 特定のデータ分布仮定(Separable by Random ReLU Feature または Separable by Conjugate Kernel)に基づく系は、多項式個のサンプルで epsilon-一般化を与える: case1 では m* = tilde O(poly(2^L, gamma^-1)) * epsilon^-14 および n* = tilde O(poly(2^L, gamma^-1)) * epsilon^-4; case2 では gamma^-1 の依存性をもつ類似の境界。
  • これらの結果は、任意の深さの広いニューラルネットワークに対するアルゴリズム依存の一般化境界を提供し、最適化ダイナミクスと一般化を結びつけ、uniform convergence の幅依存性の排除という留保なしに示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。