QUICK REVIEW

[論文レビュー] Fine-Grained Analysis of Optimization and Generalization for Overparameterized Two-Layer Neural Networks

Sanjeev Arora, Simon S. Du|arXiv (Cornell University)|Jan 24, 2019

Advanced Neural Network Applications被引用数 238

ひとこと要約

この論文は、ランダム初期化を伴う過parameterizedな2層 ReLUネットの訓練ダイナミクスと一般化を分析し、細かな収束速度とデータ依存的・サイズ非依存な一般化境界をReLUカーネル Gram 行列を介して明らかにする。

ABSTRACT

Recent works have cast some light on the mystery of why deep nets fit any data and generalize despite being very overparametrized. This paper analyzes training and generalization for a simple 2-layer ReLU net with random initialization, and provides the following improvements over recent works: (i) Using a tighter characterization of training speed than recent papers, an explanation for why training a neural net with random labels leads to slower training, as originally observed in [Zhang et al. ICLR'17]. (ii) Generalization bound independent of network size, using a data-dependent complexity measure. Our measure distinguishes clearly between random labels and true labels on MNIST and CIFAR, as shown by experiments. Moreover, recent papers require sample complexity to increase (slowly) with the size, while our sample complexity is completely independent of the network size. (iii) Learnability of a broad class of smooth functions by 2-layer ReLU nets trained via gradient descent. The key idea is to track dynamics of training and generalization via properties of a related kernel.

研究の動機と目的

過parameterizedなネットがランダムデータを適合させつつなぜ一般化するのかを理解する動機付け。
真のラベルとランダムラベルを区別するより厳密な訓練速度の説明を提供。
データ依存でネットワークサイズに依存しない一般化境界を導出。
2層 ReLU ネットワークで滑らかな関数の広いクラスの学習可能性を示す。
解析的取り組みのために最適化ダイナミクスをカーネル（ReLUベース）と関連づける。

提案手法

二層の ReLU ネットワークを m 個の隠れユニットでモデリングし、2次損失の下で勾配降下法で訓練する。
訓練ダイナミクスを特徴づけるために ReLU カーネルから H^∞ をグラム行列として定義する。
訓練予測が近似的に (I − ηH^∞) によって支配された線形様の更新に従うことを示す。
パラメータの移動とラデマチャー複雑性に基づくデータ依存の一般化境界を、m に依存しない形で開発する。
真のラベルとランダムラベルを識別するデータ依存の複雑性指標 y^T(H^∞)^{-1}y を導入する。
学習可能な関数クラスを核駆動ダイナミクスに結びつける（例：線形、多項式/コサイン活性化）。

実験結果

リサーチクエスチョン

RQ1質問1：過parameterizedな2層ネットで、真のラベルがランダムラベルよりも勾配降下法でより速く収束する理由は？
RQ2質問2：訓練済みネットワークのサイズに依存せず、真のラベルとランダムラベルを区別する単純でデータ依存の一般化指標を得ることはできるか？
RQ3質問3：この枠組みの下で、2層 ReLU ネットワークを勾配降下法で訓練して学習可能な広い関数クラスは何か？

主な発見

過parameterizedな2層 ReLU ネットにおける勾配降下法は、ラベルベクトルを H^∞ の固有ベクトルへの射影に依存する収束速度を示す。
真のラベルは H^∞ の上位固有ベクトルと整列し、より速く収束する。一方ランダムラベルはより一様に射影される。
データ依存の一般化境界が確立され、隠れ層の幅 m に依存せず、y^T(H^∞)^{-1}y に依存する、サイズ非依存の指標を提供する。
この境界は任意の1-Lipschitz損失に適用され、母集団リスクを含み、2値分類の系図でテスト誤差の制御を示す。
この分析は、small initialization のもとで勾配降下法を用いた滑らかな関数の広いクラス（例：線形、多項式/コサイン活性化）を学習可能であることを示唆する。
MNIST/CIFAR の実験は、提案された複雑性指標を用いて真のラベルとランダムラベルの区別を実証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。