Skip to main content
QUICK REVIEW

[論文レビュー] Theory of Deep Learning III: explaining the non-overfitting puzzle

Tomaso Poggio, Kenji Kawaguchi|arXiv (Cornell University)|Dec 30, 2017
Stochastic Gradient Optimization Techniques参考文献 22被引用数 47
ひとこと要約

この論文は、過パラメータ化された深層ネットワークにおける勾配降下法の動作が、安定した最小値の近傍で退化またはほぼ退化したヘッセ行列を伴う線形系と位相的に同値であることを示すことによって、深層学習の一般化の謎を解明している。勾配降下法が最小ノルム解に収束することにより、明示的な正則化なしに過大な容量にもかかわらず過学習を防ぐという、implicit regularizationの理論的説明を提供している。

ABSTRACT

A main puzzle of deep networks revolves around the absence of overfitting despite large overparametrization and despite the large capacity demonstrated by zero training error on randomly labeled data. In this note, we show that the dynamics associated to gradient descent minimization of nonlinear networks is topologically equivalent, near the asymptotically stable minima of the empirical error, to linear gradient system in a quadratic potential with a degenerate (for square loss) or almost degenerate (for logistic or crossentropy loss) Hessian. The proposition depends on the qualitative theory of dynamical systems and is supported by numerical results. Our main propositions extend to deep nonlinear networks two properties of gradient descent for linear networks, that have been recently established (1) to be key to their generalization properties: 1. Gradient descent enforces a form of implicit regularization controlled by the number of iterations, and asymptotically converges to the minimum norm solution for appropriate initial conditions of gradient descent. This implies that there is usually an optimum early stopping that avoids overfitting of the loss. This property, valid for the square loss and many other loss functions, is relevant especially for regression. 2. For classification, the asymptotic convergence to the minimum norm solution implies convergence to the maximum margin solution which guarantees good classification error for "low noise" datasets. This property holds for loss functions such as the logistic and cross-entropy loss independently of the initial conditions. The robustness to overparametrization has suggestive implications for the robustness of the architecture of deep convolutional networks with respect to the curse of dimensionality.

研究の動機と目的

  • ランダムラベル上でゼロの訓練誤差を達成するにもかかわらず、過パラメータ化された深層ニューラルネットワークがなぜ一般化性能を示すのかという長年の謎を解明すること。
  • 線形ネットワークの既知の一般化特性(特にimplicit regularizationおよび最小ノルム解への収束)を非線形な深層ネットワークへと拡張すること。
  • 安定した最小値の近傍で、深層ネットワークにおける勾配降下法のダイナミクスが、退化したヘッセ行列を伴う線形系と位相的に同値であることを示し、過パラメータ化に対するロバストネスを説明すること。
  • 回帰(平方損失)および分類(ロジスティック/交差エントロピー損失)の両方において、この挙動が成り立つことを示し、一般化およびマージン最大化への影響を明らかにすること。

提案手法

  • 動的システムの定性的理論の道具を用いて、非線形深層ネットワークにおける勾配降下法のダイナミクスを分析する。
  • 漸近的に安定な最小値の近傍では、システムの挙動が、退化した(平方損失)またはほぼ退化した(ロジスティック/交差エントロピー損失)ヘッセ行列を伴う二次ポテンシャル内の線形勾配系と位相的に同値であることを示す。
  • 特に平方損失の場合に、適切な初期条件のもとで勾配降下法が最小ノルム解に収束することを確立する。
  • 分類問題へこの結果を拡張し、最大マージン解への漸近的収束を証明することで、低ノイズデータセットにおいて良好なテスト誤差を保証することを示す。
  • ReLUを単変数多項式に置き換えた多項式ネットワーク近似を用いて、滑らかで非一様な活性化関数が主要な一般化特性を保持することを検証する。
  • 回帰およびCIFAR-10における数値実験(摂動あり・なし)を用いて、理論的予測を確認する。特に、ヘッセ行列が退化している状況ではテスト誤差に過学習が現れることを示す。

実験結果

リサーチクエスチョン

  • RQ1過パラメータ化された深層ネットワークは、ランダムラベル上でゼロの訓練誤差を達成しているにもかかわらず、なぜ過学習をしないのか?
  • RQ2明示的な重み減衰やバッチ正規化がなくても、深層ネットワークにおける勾配降下法がどのように解をimplicitに正則化するのか?
  • RQ3線形ネットワークの一般化特性が非線形な深層ネットワークへどの程度拡張可能か?
  • RQ4ヘッセ行列の退化が深層学習における一般化を制御する役割を果たすのか?
  • RQ5深層ネットワークにおける勾配降下法は最小ノルム解に収束するのか?そしてその収束が良好な一般化を意味するのか?

主な発見

  • 安定した最小値の近傍で、深層ネットワークにおける勾配降下法は、退化またはほぼ退化したヘッセ行列を伴う線形系と位相的に同値であり、過学習の不在を説明できる。
  • 平方損失を用いた回帰では、勾配降下法がimplicitに正則化を行い、最小ノルム解に収束する。これは、過学習を避けるための最適な早期停止点があることを示唆する。
  • ロジスティック損失または交差エントロピー損失を用いた分類では、勾配降下法は漸近的に最大マージン解に収束する。これは、低ノイズデータセットにおいて良好な一般化を保証する。
  • 数値実験により、ヘッセ行列が退化している場合(例:未定義の多項式回帰)にはテスト誤差に過学習が現れることを確認したが、分類性能は依然としてロバストである。
  • データオーグメンテーションや重み減衰が存在しない状況でも、勾配降下法によるimplicit regularizationのおかげで深層ネットワークは良好に一般化する。これは明示的なインダクティブバイアスによるものではない。
  • ReLUおよび滑らかな活性化関数の両方において、この結果が成り立つことから、主要なメカニズムは非線形性そのものではなく、最適化ダイナミクスであると示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。