QUICK REVIEW

[論文レビュー] Learning and Generalization in Overparameterized Neural Networks, Going Beyond Two Layers

Zeyuan Allen-Zhu, Yuanzhi Li|arXiv (Cornell University)|Nov 12, 2018

Machine Learning and Algorithms参考文献 49被引用数 172

ひとこと要約

この論文は、過剰パラメータ化されたニューラルネットワークが SGD を用いて、2層を超える概念クラスを効率的に学習できることを証明しており、2層および3層の両方のネットワークに対する結果と、NTK を超える学習アプローチを示している。2次近似（二次）フレームワークを導入し、ネットワークサイズにほぼ依存しないサンプル複雑度で多項式時間の学習可能性を示す。

ABSTRACT

The fundamental learning theory behind neural networks remains largely open. What classes of functions can neural networks actually learn? Why doesn't the trained network overfit when it is overparameterized? In this work, we prove that overparameterized neural networks can learn some notable concept classes, including two and three-layer networks with fewer parameters and smooth activations. Moreover, the learning can be simply done by SGD (stochastic gradient descent) or its variants in polynomial time using polynomially many samples. The sample complexity can also be almost independent of the number of parameters in the network. On the technique side, our analysis goes beyond the so-called NTK (neural tangent kernel) linearization of neural networks in prior works. We establish a new notion of quadratic approximation of the neural network (that can be viewed as a second-order variant of NTK), and connect it to the SGD theory of escaping saddle points.

研究の動機と目的

ニューラルネットワークが証明可能に学習できる関数の fundamental な問いと、なぜ過剰パラメータ化が一般化を助けるのかを動機づける。
smooth な2層および3層ネットワークが、ポリノミアル時間とサンプル複雑度で SGD によって効率的に学習できることを示す。
標準NTK を超える SGD のダイナミクスを分析するための2次近似（第二次NTK様）フレームワークを開発・活用する。
過剰パラメータ化により、潜在的に複雑な活性化を含むターゲット関数と小さな母集団リスクを学習可能にすることを示す。

提案手法

smooth な活性化を持つ2層および3層ネットワークを含むターゲット関数クラスを定式化する。
ガウス重みで初期化され、凸/1-Lipschitz ロスを最小化するように学習される過剰パラメータ化ネットワーク上での SGD ダイナミクスを分析する。
2次近似の視点を、SGD が鞍点を脱出することを研究するNTKの二次版として導入する。
3層設定では、重み減衰正則化とガウス擾乱を用いた2段階 SGD を適用し、好ましいランドスケープ特性を確保する。
適切な初期化とサンプルサイズが与えられた場合、SGD がクラス内の最適なターゲット関数に対して母集団リスクを OPT+ε の範囲に達することを証明する。
多項式時間・多項式サンプルサイズの境界を示し、パラメータ数にはほぼ依存しないことを示す。

実験結果

リサーチクエスチョン

RQ1過剰パラメータ化の下で、2層を超えるネットワークはどのような関数クラスを証明可能に学習できるか？
RQ2SGD はパラメータ数に依存せず、ポリノミアルな時間とサンプルサイズでこれらのクラスを効率的に学習できるか？
RQ3NTK を超えた（層間の非線形相互作用）学習可能性と一般化性にどのような影響があるか？
RQ4過剰パラメータ化と正則化（ウェイトデケイ）は、深いネットワークの一般化を可能にする役割をどう果たすのか？
RQ5提案された2次近似は、マルチレイヤネットワークにおける SGD のダイナミクスと鞍点脱出にどう関連するか？

主な発見

過剰パラメータ化されたネットワークは、非自明な活性化を含む2層および3層の概念クラスを効率的に学習できる。
学習はSGDまたはその派生形によって、パラメータ数に対して多項式個数のサンプルで多項式時間に実現可能である。
サンプル複雑度はパラメータ数（m）にほぼ依存せず、活性化の複雑さとターゲットネットワークサイズに依存する。
新しい2次近似フレームワーク（第二次NTK）は、SGD の解析をカーネル型の線形化を超えた鞍点脱出へ結びつける。
2層ネットワークでは、SGD は多項式時間の境界と、活性化の複雑さとターゲットサイズに比例するサンプル複雑度で、母集団リスクを OPT+ε に達成できる。
3層ネットワークでは、NTK を超えた結果が拡張され、過剰パラメータ化と正則化の下で、より表現力のあるターゲット関数の学習可能性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。