Skip to main content
QUICK REVIEW

[論文レビュー] Generalization in Deep Networks: The Role of Distance from Initialization

Vaishnavh Nagarajan, J. Zico Kolter|arXiv (Cornell University)|Jan 7, 2019
Stochastic Gradient Optimization Techniques参考文献 12被引用数 57
ひとこと要約

本論文は初期化に依存する有効モデル容量を提案し、SGD が初期化からの距離を暗黙のうちに正則化するという経験的・理論的証拠を提供する。これが深層ネットワークの一般化を説明するのに役立つ。

ABSTRACT

Why does training deep neural networks using stochastic gradient descent (SGD) result in a generalization error that does not worsen with the number of parameters in the network? To answer this question, we advocate a notion of effective model capacity that is dependent on {\em a given random initialization of the network} and not just the training algorithm and the data distribution. We provide empirical evidences that demonstrate that the model capacity of SGD-trained deep networks is in fact restricted through implicit regularization of {\em the $\ell_2$ distance from the initialization}. We also provide theoretical arguments that further highlight the need for initialization-dependent notions of model capacity. We leave as open questions how and why distance from initialization is regularized, and whether it is sufficient to explain generalization.

研究の動機と目的

  • ネットワークの固定されたランダム初期化に依存する有効なモデル容量を動機づける。
  • SGD が初期化からの距離を幅に依存しない値へ正則化することを経験的に示す。
  • 幅に基づくノルムを超える一般化を説明するには、初期化依存の指標が必要であると理論的に主張する。
  • 初期化に依存しないノルム(例:原点からの距離)で一般化を説明することの限界を探る。

提案手法

  • 有効容量 ˆH_{m,\u0000\u001delta}[D,(Z,C),A] ˆ を、SGD が高い確率で到達できるパラメータ設定の集合として定義する。
  • 実データおよびラベルを破損させたデータで、初期化からの距離 r がネットワーク幅 H および訓練データ数 m とともにどのように振る舞うかを経験的に分析する。
  • 中程度の H に対して r が幅に依存せず留まり、訓練データサイズ m およびラベルノイズの増加とともに増大することを示す。
  • 初期化から固定距離 r 以内のネットワークに対して、Rademacher 複雑性の境界を示す線形ネットワークに関する理論的結果を提供する。
  • 原点からの距離を測るノルムが一般化を説明するのに失敗する理由を論じる。
  • 初期化、距離正則化、および一般化境界を結びつける補題と系(コロラリーとレマ)を提示する。

実験結果

リサーチクエスチョン

  • RQ1ニューラルネットワークの有効なモデル容量はランダムな初期化に依存するか。
  • RQ2SGD は初期化からの距離を幅に依存しない値へ暗黙のうちに正則化できるか、そしてこれが一般化と関係があるか。
  • RQ3初期化依存の指標は、一般化を説明するうえで原点からの距離ノルムより有用か。
  • RQ4初期化から固定距離内に制約されたネットワークに対して、どのような理論的保証が確立できるか。
  • RQ5初期化からの距離は幅、データサイズ、ラベルノイズとともにどのようにスケールするか。

主な発見

  • 初期化から移動した距離は中程度の幅に対してはほぼ幅に依存せず、幅が大きくなるにつれて境界を保つ傾向がある。
  • 距離 r はラベルノイズや大きな訓練データセットサイズとともに増加し、ノイズの多いデータにはより多くのメモリ化が必要であることを示している。
  • 線形ネットワークにおいて、初期化に基づく距離 r 内のネットワークの Rademacher 複雑性には、幅に依存しない境界がある(r およびネットワークの深さに比例してスケールする)。
  • 原点からの距離に結びつくノルムは幅とともに増加する可能性があり、一般化を説明できない場合がある。初期化依存の指標の価値を強調する。
  • ランダム初期化だけでは、学習されていないネットワークの一般化誤差は幅に依存しないことを示しており、初期化ベースの容量概念を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。