Skip to main content
QUICK REVIEW

[論文レビュー] Learning Overparameterized Neural Networks via Stochastic Gradient Descent on Structured Data

Yuanzhi Li, Yingyu Liang|arXiv (Cornell University)|Aug 3, 2018
Neural Networks and Applications被引用数 319
ひとこと要約

この論文は、過パラメータ化された2層ReLUネットワークで訓練された SGD が、構造化データに対してなぜ良い汎化性能を示すのかを分析し、データが構造的成分に分離されているとき初期化付近で低汎化誤差の解に収束することを示す。

ABSTRACT

Neural networks have many successful applications, while much less theoretical understanding has been gained. Towards bridging this gap, we study the problem of learning a two-layer overparameterized ReLU neural network for multi-class classification via stochastic gradient descent (SGD) from random initialization. In the overparameterized setting, when the data comes from mixtures of well-separated distributions, we prove that SGD learns a network with a small generalization error, albeit the network has enough capacity to fit arbitrary labels. Furthermore, the analysis provides interesting insights into several aspects of learning neural networks and can be verified based on empirical studies on synthetic data and on the MNIST dataset.

研究の動機と目的

  • 過parameter化したニューラルネットワークにおける SGD と暗黙の正則化の理解を動機づける。
  • 構造化データを用いた多クラス分類のための2層ReLUネットワークの学習をモデル化する。
  • データの分離可能性と過パラメータ化の下でSGDが小さな汎化誤差を達成することを証明する。
  • 初期化、最適化の景観、およびSGDによって誘導される帰納的バイアスに関する洞察を提供する。

提案手法

  • ランダム初期化をもつm個の隠れユニットを持つkクラス分類のための2層ReLUネットワークを定義する。
  • データをクラスごとにl成分の混合として定式化する(支持がよく分離されている条件A1、入力の正規化A2)。
  • クロスエントロピー損失とソフトマックス出力を用いたミニバッチSGDの更新を記述する(式(Eq. 1))。
  • 初期化時の活性化パターンに固定した擬似勾配を導入し、SGDのダイナミクスを解析する。
  • 十分に大きなmで、SGDが初期化に近い解を見つけ、汎化誤差が小さいことを定理4.1として証明する。
  • 分散なしの簡略化ケースと結合補題を用いて、勾配の大きさが収束を駆動するという直観を補強する。

実験結果

リサーチクエスチョン

  • RQ1過パラメータ化された2層ReLUネットワークにおけるSGDはどのような条件で構造化データに対して良く一般化するのか?
  • RQ2初期化と過パラメータ化は、データがよく分離された成分の混合である場合にどのように帰納的バイアスを生み出し、過適合を回避するか?
  • RQ3データ構造の役割(k, l, delta, 直径)がおよび学習時間と必要なネットワーク幅の決定にどう影響するのか?
  • RQ4SGDのダイナミクスは、最適化と汎化の挙動を説明する善良な擬似勾配によって近似できるのか?

主な発見

  • 適切なランダム初期化を伴うSGDは、任意のラベルに適合する容量をネットワークが持つ場合でも低い汎化誤差を達成する。
  • 必要な過パラメータ化と学習時間はデータ構造パラメータ(k, l, delta)に依存し、周囲の次元dには依存しない。
  • mが大きい場合、分布的仮定の下で多項式量のサンプルで高い確率の正しい分類を達成できる。
  • 初期化近傍のSGDダイナミクスは善良な学習過程と実質的に結合しており、最適化が成功し汎化が維持される理由を説明する。
  • 合成データとMNISTの経験的結果は理論を裏付け、活性化パターンの結合と重み更新の低ランク構造を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。