[论文解读] Harmful Overfitting in Sobolev Spaces
该论文证明,在Sobolev空间 W^{k,p}(R^d) 中近似范数最小化的插值器在标准噪声假设下会产生有害的过拟合,随着样本量 n 增大,总体风险与 Bayes 风险 的差距仍然被界定在某个下界之外。
Motivated by recent work on benign overfitting in overparameterized machine learning, we study the generalization behavior of functions in Sobolev spaces $W^{k, p}(\mathbb{R}^d)$ that perfectly fit a noisy training data set. Under assumptions of label noise and sufficient regularity in the data distribution, we show that approximately norm-minimizing interpolators, which are canonical solutions selected by smoothness bias, exhibit harmful overfitting: even as the training sample size $n o \infty$, the generalization error remains bounded below by a positive constant with high probability. Our results hold for arbitrary values of $p \in [1, \infty)$, in contrast to prior results studying the Hilbert space case ($p = 2$) using kernel methods. Our proof uses a geometric argument which identifies harmful neighborhoods of the training data using Sobolev inequalities.
研究动机与目标
- 在固定维数下,理解在 Sobolev 空间中拟合带噪声数据的插值器的泛化能力。
- 确立在 p ∈ [1,∞) 的 W^{k,p}(R^d) 中,近似范数最小化的插值器不可能实现良性过拟合。
- 在温和的正则性假设下,提供对期望超额风险的统一下界,与样本量无关。
- 将先前的研究从希尔伯特空间与核方法推广到更广泛的 Sobolev 设置。
提出的方法
- 将 gamma-ANM(近似范数最小化)插值器相对于 W^{k,p}(R^d) 中的最小范数解 f*,定义为 Sobolev 范数约束。
- 使用放置在数据点、支撑区域两两不相交的凸起函数构造显式插值器,以界定最小 Sobolev 范数。
- 证明存在一个带噪声且分离性良好的数据子集,其条件损失严格高于 Bayes 损失,同时保持标签有界。
- 利用 Sobolev 不等式界定局部振荡并在噪声点周围传播高后悔区域。
- 证明在输入空间的大份额区域的总争论导致对所有 gamma-ANM 插值器的期望超额风险有正的下界。
- 专门讨论高斯异方差噪声下的平方损失以说明推论 3.8 的推论。
实验结果
研究问题
- RQ1在固定维数下,W^{k,p}(R^d) 中近似范数最小化的插值是否会导致良性过拟合?
- RQ2在数据分布与损失的何种条件下,任意 gamma-ANM 插值器随着 n 增大仍会产生常量的超额风险?
- RQ3与核方法/RKHS 结果相比,当 p ≠ 2(非希尔伯特 Sobolev 空间)时,其泛化行为如何变化?
- RQ4Sobolev 范数与局部振荡控制在 Sobolev 空间插值器的泛化中扮演何种角色?
主要发现
- 任何 kp > d 的 W^{k,p}(R^d) 中的 gamma-ANM 插值器,其群体超额风险被一个与 n 无关的常数下界所界定,且以高概率成立。
- 该结论对所有 p ∈ [1,∞) 以及 k 的广泛范围成立,满足 d/p < k < 1.5d/p。
- 下界仅依赖于 Sobolev 参数、数据分布与噪声水平,而与样本量无关(在样本量很大时)。
- 高斯异方差噪声的推论表明,f_gamma 与真实目标 g 之间的 L^2 误差被常数乘以 gamma^{-pd/(kp-d)} 下界限定。
- 分析使用显式的放进函数插值器及几何论证,识别训练数据周围的有害邻域。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。