Skip to main content
QUICK REVIEW

[论文解读] On the Universality of the Double Descent Peak in Ridgeless Regression

David Holzmüller|arXiv (Cornell University)|Oct 5, 2020
Sparse and Compressive Sensing Techniques被引用 2
一句话总结

该论文在标签噪声下建立了无正则化线性回归中期望泛化误差的非渐近、分布无关下界,证明了在过参数化状态下,由于对标签噪声的固有敏感性,双下降峰值在包括随机深度神经网络、随机傅里叶特征和多项式核在内的广泛特征映射类中具有普适性。

ABSTRACT

We prove a non-asymptotic distribution-independent lower bound for the expected mean squared generalization error caused by label noise in ridgeless linear regression. Our lower bound generalizes a similar known result to the overparameterized (interpolating) regime. In contrast to most previous works, our analysis applies to a broad class of input distributions with almost surely full-rank feature matrices, which allows us to cover various types of deterministic or random feature maps. Our lower bound is asymptotically sharp and implies that in the presence of label noise, ridgeless linear regression does not perform well around the interpolation threshold for any of these feature maps. We analyze the imposed assumptions in detail and provide a theory for analytic (random) feature maps. Using this theory, we can show that our assumptions are satisfied for input distributions with a (Lebesgue) density and feature maps given by random deep neural networks with analytic activation functions like sigmoid, tanh, softplus or GELU. As further examples, we show that feature maps from random Fourier features and polynomial kernels also satisfy our assumptions. We complement our theory with further experimental and analytic results.

研究动机与目标

  • 在标签噪声下建立无正则化线性回归中期望泛化误差的非渐近、分布无关下界。
  • 将已知的欠参数化边界扩展至过参数化(插值)情形,此时模型能完美拟合训练数据。
  • 分析该下界适用的条件,特别关注设计矩阵几乎必然满秩的特征映射。
  • 证明该下界在渐近意义上是紧的,并适用于现实的非i.i.d.特征分布,包括来自深度神经网络和随机特征映射的分布。
  • 表明双下降峰值并非特定模型假设的产物,而是由过参数化模型中对标签噪声的敏感性所驱动的普遍现象。

提出的方法

  • 基于 Mourtada (2022) 提出的极小极大框架,将其适配于过参数化情形,推导出无正则化线性回归中期望超额风险(泛化误差)的非渐近下界。
  • 引入一个条件(FRK),确保特征矩阵几乎必然满秩,从而保证存在能插值训练数据的解。
  • 将该下界应用于具有解析激活函数(如 sigmoid、tanh、GELU)的随机深度神经网络所导出的特征映射,证明在勒贝格分布输入下,FRK 条件成立。
  • 将分析扩展至随机傅里叶特征和多项式核,证明这些特征映射也满足下界适用的必要假设。
  • 利用随机矩阵理论和集中不等式等理论工具,分析高维下逆格拉姆矩阵 (W W^T)^{-1} 的行为。
  • 将推导出的下界与有限宽度神经正切核及随机神经网络特征的实验和理论结果进行比较,确认在 n, p → ∞ 极限下其渐近紧致性。

实验结果

研究问题

  • RQ1无正则化回归中的双下降峰值是否在多样化特征映射中普遍存在,还是仅限于特定模型假设?
  • RQ2是否可以在过参数化情形下,为无正则化线性回归建立一个分布无关的泛化误差下界?
  • RQ3特征工程在多大程度上可以降低无正则化模型对标签噪声的敏感性?
  • RQ4具有解析激活函数的随机深度神经网络是否满足下界成立所需的条件?
  • RQ5与现有边界相比,所提出的下界在紧致性和对现实世界数据分布的适用性方面表现如何?

主要发现

  • 该论文在过参数化情形(p ≥ n)下,建立了无正则化线性回归中期望泛化误差的非渐近、分布无关下界。
  • 该下界在渐近意义上是紧的,即在 n, p → ∞ 时与实际误差行为一致,证实了其紧致性。
  • 对于具有勒贝格密度的输入分布以及具有解析激活函数(如 sigmoid、tanh、GELU)的随机深度神经网络所生成的特征映射,FRK 条件成立,从而确保下界适用。
  • 该下界表明,当存在标签噪声时,无正则化回归在插值阈值附近(n ≈ p)无法避免出现显著的泛化误差峰值,无论特征映射如何设计。
  • 该下界严格强于 Muthukumar 等人 (2020) 的先前结果,因其为显式表达、不依赖子高斯范数,且数值更大,表明在标准假设下,特征工程无法消除双下降峰值。
  • 分析表明,要实现低泛化误差(ENoise < εσ²),唯一途径是模型显著欠参数化(p < εn)或显著过参数化(p > n/ε),揭示了模型设计中的根本权衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。