QUICK REVIEW

[論文レビュー] Fine-Grained Analysis of Optimization and Generalization for Overparameterized Two-Layer Neural Networks

Sanjeev Arora, Simon S. Du|arXiv (Cornell University)|Jan 24, 2019

Stochastic Gradient Optimization Techniques参考文献 73被引用数 261

ひとこと要約

本論文は、勾配降下法で訓練された幅広く過パラメータ化された二層ReLUネットワークの訓練ダイナミクスと一般化を分析し、ラベル構造とデータ依存のカーネルグラム行列が最適化速度と一般化境界にどのように影響を与えるかを明らかにする。

ABSTRACT

Recent works have cast some light on the mystery of why deep nets fit any data and generalize despite being very overparametrized. This paper analyzes training and generalization for a simple 2-layer ReLU net with random initialization, and provides the following improvements over recent works: (i) Using a tighter characterization of training speed than recent papers, an explanation for why training a neural net with random labels leads to slower training, as originally observed in [Zhang et al. ICLR'17]. (ii) Generalization bound independent of network size, using a data-dependent complexity measure. Our measure distinguishes clearly between random labels and true labels on MNIST and CIFAR, as shown by experiments. Moreover, recent papers require sample complexity to increase (slowly) with the size, while our sample complexity is completely independent of the network size. (iii) Learnability of a broad class of smooth functions by 2-layer ReLU nets trained via gradient descent. The key idea is to track dynamics of training and generalization via properties of a related kernel.

研究の動機と目的

過パラメータ化された二層ReLUネットワークにおいて、勾配降下法が真のラベル付きデータでランダムラベルよりもなぜ収束が速いのかを説明する。
ReLUカーネルから導かれるグラム行列に依存し、ネットワークの幅に依存しないデータ依存の一般化境界を構築する。
勾配降下法で訓練された二層ReLUネットに対して、学習可能な関数の広いクラスを同定する。
データだけから計算可能な複雑さの指標を用いて、真のラベルとランダムラベルを識別する。

提案手法

ランダム初期化を用いた二層ReLUネットをモデル化し、第二層の重みを固定する。
ReLUカーネルから導出されるグラム行列 H^∞ によって訓練ダイナミクスを分析する。
勾配降下更新を、ラベルベクトル y に作用する (I - η H^∞) 上のべき法（パワー法）と関連づける。
訓練中のパラメータの変動とラデマッハー複雑性の議論に基づくデータ依存の一般化境界を提供する。
トレーニングなしでデータから計算可能なデータ依存の複雑さ指標 y^T (H^∞)^{-1} y / n を導入する。
この境界が隠れ層の幅 m に依存しないことを示す。）

実験結果

リサーチクエスチョン

RQ1過パラメータ化された二層ネットワークにおいて、勾配降下法で真のラベルを訓練するとランダムラベルよりなぜ収束が速いのか？
RQ2ネットワークの幅に依存せず、データのみから真のラベルとランダムラベルを識別できるデータ依存の一般化境界を導出できるか？
RQ3過パラメータ化の下で勾配降下法で訓練された二層ReLUネットはどのような関数クラスを学習できるか？
RQ4ReLU によって誘導されるカーネルグラム行列は最適化ダイナミクスと一般化にどう影響するか？

主な発見

勾配降下の収束速度は、ラベルの H^∞ の固有ベクトルへの射影によって支配され、ラベルが上位固有ベクトルに一致するほど収束が速くなる。
正確な非公式な特徴付けは、訓練損失が (I - η H^∞)^k y のノルムの二乗のように振る舞うことを示し、異なるラベル間の収束をより細かく比較できる。
データ依存の一般化境界が確立され、y^T (H^∞)^{-1} y に依存し、隠れユニット数 m に依存しない。
この一般化境界は Ground-truth ネットワークを必要とせず、任意のデータラベルに適用可能で、MNIST および CIFAR の実験で真のラベルとランダムラベルを識別できる。
この境界は、勾配降下法で訓練された二層ReLUネットによる広範な滑らかな関数クラスの学習可能性を意味し、先行研究よりも緩い滑らかさ要件を持つ。
実験は、提案された複雑さ指標が、ランダムラベルの割合が変化するにつれて観測された一般化性能と一致することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。