[論文レビュー] Uniform convergence may be unable to explain generalization in deep learning
この論文は、勾配降下法で訓練された過parameter化モデルに対して、均一収束ベースの一般化境界が空虚になり得ることを主張し、アルゴリズム依存設定でも経験的および理論的な失敗を示している。
Aimed at explaining the surprisingly good generalization behavior of overparameterized deep networks, recent works have developed a variety of generalization bounds for deep learning, all based on the fundamental learning-theoretic technique of uniform convergence. While it is well-known that many of these existing bounds are numerically large, through numerous experiments, we bring to light a more concerning aspect of these bounds: in practice, these bounds can {\em increase} with the training dataset size. Guided by our observations, we then present examples of overparameterized linear classifiers and neural networks trained by gradient descent (GD) where uniform convergence provably cannot "explain generalization" -- even if we take into account the implicit bias of GD {\em to the fullest extent possible}. More precisely, even if we consider only the set of classifiers output by GD, which have test errors less than some small $ε$ in our settings, we show that applying (two-sided) uniform convergence on this set of classifiers will yield only a vacuous generalization guarantee larger than $1-ε$. Through these findings, we cast doubt on the power of uniform convergence-based generalization bounds to provide a complete picture of why overparameterized deep networks generalize well.
研究の動機と目的
- 過parameter化された深層ネットワークが、古典的な均一収束の説明を超えてなぜ良く一般化するのかを動機づける。
- 一般的な均一収束ベースの境界が、予想されるように減少するのではなく、訓練データセットサイズとともに増加することを経験的に示す。
- 勾配降下法の暗黙のバイアスを考慮しても、2辺の均一収束境界が一般化を説明できない理論的構成を提示する。
- 深層学習における一般化を理解する手段としての均一収束の根本的な限界を強調する。
提案手法
- MNIST上で深さ5・幅1024の全結合ネットワークをSGD ( lr=0.1, バッチサイズ1 ) で訓練し、γ* = 10 のマージンを用いて99%の正解精度まで達するまで、重みノルムと一般化の経験的分析を行う。
- 初期化からの距離とスペクトralノルムの積がデータサイズ m とともにどのように増大するかを観察する(それぞれ少なくとも m^0.4, および m)。
- 先行研究の既存の一般化境界の評価。分子項が m とともに増加するため、境界は Ω(m^0.68) に増大することを示す。
- 高次元線形分類器と勾配降下法で訓練されたニューラルネットワークに関する、2辺の均一収束が証明可能に空虚であるという理論的構成。
- アルゴリズム依存の最も厳密な均一収束(アルゴリズムが探索する仮説集合上での)を定義・使用し、一般化を説明する上での均一収束の限界を主張する。
実験結果
リサーチクエスチョン
- RQ1勾配降下法で訓練された過parameter化モデルに対して、均一収束境界は非空虚な一般化保証を提供できるのか?
- RQ2多くの境界で用いられる重みノルムに基づく量は、実際には訓練データセットサイズとともに減少し、観察される一般化性能と一致するのか?
- RQ3アルゴリズム依存の(最も厳密な)均一収束境界は、現実的なディープラーニングの設定でもなお空虚か?
- RQ4均一収束が、過parameter化ニューラルネットワークの一般化挙動を捉えるうえでどのような根本的な限界を持つのか?
主な発見
- 初期化からの距離やスペクトルノルムの積などの重みノルムは、訓練データセットサイズ m とともに増加する(多項式成長:それぞれ少なくとも m^0.4 および m)。
- 一般化テスト誤差は m とともに減少する(特定の設定では約 1/m^0.43)、しかし対応する境界の分子項は m とともに増加し、境界が増大する(Ω(m^0.68))。
- アルゴリズムが探索した仮説クラスの最小の仮説クラスに剪定しても、ほとんど空虚な一般化保証しか得られない(小さな ε に対して境界がほぼ 1 に近い)。
- 過parameter化された線形分類器と GD/SGD で訓練されたニューラルネットワークにおいて、暗黙の正則化を組み込んでも、2辺の均一収束境界は一般化を説明できない。
- 概念的には異なるものの、片側 PAC-Bayes 境界もこれらの設定ではほぼ空虚な保証に近づく。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。