[論文レビュー] Harmful Overfitting in Sobolev Spaces
この論文は、Sobolev空間 W^{k,p}(R^d) における概ねノルム最適化 interpolator が、標準的なノイズ仮定の下で有害な過剰適合を示し、n が増加しても集団リスクが Bayes リスクから離れて下がらないことを証明する。
Motivated by recent work on benign overfitting in overparameterized machine learning, we study the generalization behavior of functions in Sobolev spaces $W^{k, p}(\mathbb{R}^d)$ that perfectly fit a noisy training data set. Under assumptions of label noise and sufficient regularity in the data distribution, we show that approximately norm-minimizing interpolators, which are canonical solutions selected by smoothness bias, exhibit harmful overfitting: even as the training sample size $n \to \infty$, the generalization error remains bounded below by a positive constant with high probability. Our results hold for arbitrary values of $p \in [1, \infty)$, in contrast to prior results studying the Hilbert space case ($p = 2$) using kernel methods. Our proof uses a geometric argument which identifies harmful neighborhoods of the training data using Sobolev inequalities.
研究の動機と目的
- 固定次元で Sobolev 空間内のノイズデータに適合する interpolator の一般化理解を動機づける。
- W^{k,p}(R^d) において約ノルム最小化 interpolator は p ∈ [1, ∞) に対して benign に過適合できないことを確立する。
- 穏やかな正規条件の下で、標本サイズに依存しない期待過剰リスクの一様下限を提供する。
- prior work を ヒルベルト空間およびカーネル法からより広い Sobolev 設定へ一般化する。
提案手法
- Sobolev ノルム制約を r の最小ノルム解 f* in W^{k,p}(R^d) に対して相対化した gamma-ANM (approximately norm-minimizing) interpolants を定義する。
- データ点に配置されたディスク状のバンプ関数を用いて最小 Sobolev ノルムを境界づける明示的な interpolant を構築する。
- ノイズのある、十分に分離したデータ部分集合の存在を示し、その条件付き損失が Bayes 損失を厳密に上回る一方でラベルを境界内に保つ。
- Sobolev 不等式を用いて局所的発振を制限し、ノイズ点の周囲に高い後悔の領域を伝播させる。
- 入力空間の大部分にわたる総後悔が、全ての gamma-ANM interpolant に対して期待過剰リスクの正の下限を生じることを証明する。
- ガウス型異分散ノイズと二乗損失に特化し、定理3.8の系を説明する。
実験結果
リサーチクエスチョン
- RQ1W^{k,p}(R^d) における約ノルム最小化補間は、固定次元で benign 過適合を生み出すのか。
- RQ2データ分布と損失の条件の下で、任意の gamma-ANM interpolant が n の増加とともに定数の過剰リスクを被るのはいつか。
- RQ3p ≠ 2 (非ヒルベルト Sobolev 空間) の場合とカーネル/RKHS の結果と比較して、一般化挙動はどう変わるのか。
- RQ4Sobolev ノルムと局所的振動制御が Sobolev 空間の interpolant の一般化においてどんな役割を果たすのか。
主な発見
- kp > d の W^{k,p}(R^d) における任意の gamma-ANM interpolant は、母集団の過剰リスクが n に依存しない正の定数以下には下げられず、高確率で下限を持つ。
- 結果は p ∈ [1, ∞) のすべておよび d/p < k < 1.5d/p の広範な範囲の k に適用される。
- 下限は Sobolev パラメータ、データ分布、ノイズレベルのみに依存し、標本サイズには依存しない(大規模な n に対して)。
- ガウス型異分散ノイズの系では、L^2 誤差が f_gamma と基底真の g の間で定数 × gamma^{-pd/(kp-d)} により下界を持つ、Corollary を示す。
- 分析では明示的なバンプ関数 interpolants と、学習データ周辺の有害な近傍を特定する幾何的議論を用いる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。