Skip to main content
QUICK REVIEW

[论文解读] Benign overfitting in ridge regression

Alexander Tsigler, Peter L. Bartlett|arXiv (Cornell University)|Sep 29, 2020
Sparse and Compressive Sensing Techniques参考文献 16被引用 84
一句话总结

本文通过消除独立性假设一般化了关于无害过拟合的前人工作,在过参数化下为岭回归的偏差和方差给出明确的非渐近界,并给出负正则化在某些条件下可能是最优的条件。

ABSTRACT

In many modern applications of deep learning the neural network has many more parameters than the data points used for its training. Motivated by those practices, a large body of recent theoretical research has been devoted to studying overparameterized models. One of the central phenomena in this regime is the ability of the model to interpolate noisy data, but still have test error lower than the amount of noise in that data. arXiv:1906.11300 characterized for which covariance structure of the data such a phenomenon can happen in linear regression if one considers the interpolating solution with minimum $\ell_2$-norm and the data has independent components: they gave a sharp bound on the variance term and showed that it can be small if and only if the data covariance has high effective rank in a subspace of small co-dimension. We strengthen and complete their results by eliminating the independence assumption and providing sharp bounds for the bias term. Thus, our results apply in a much more general setting than those of arXiv:1906.11300, e.g., kernel regression, and not only characterize how the noise is damped but also which part of the true signal is learned. Moreover, we extend the result to the setting of ridge regression, which allows us to explain another interesting phenomenon: we give general sufficient conditions under which the optimal regularization is negative.

研究动机与目标

  • 激发理解为什么插值模型在过参数化环境下也能泛化。
  • 将先前的结果推广到岭回归和非独立数据分量。
  • 利用特征方向分离提供尖锐的非渐近偏差和方差界。
  • 引入并分析关键矩阵 A_k 及其条件数,作为界的核心。
  • 探索在何种条件下负正则化可能是最优的。

提出的方法

  • 在 p>n 且协方差为零均值的子高斯变量的过参数化情形下建立岭回归模型。
  • 将超额风险分解为偏差 B 与方差 V 项,并通过 A、X 及协方差谱表示。
  • 引入并利用特征方向分离:将数据分为前 k 个和尾部 k:∞ 分量,其中 A_k = X_{k:∞} X_{k:∞}^{ op} +  I_n。
  • 在 CondNum(k,δ,L) 假设下给出对 B 与 V 的非渐近界,以 k^* 作为有效开关点。
  • 将分析扩展到岭回归(λ>0)并讨论负正则化成为最优的条件。
  • 讨论与前人工作的关系,并通过第 5 节和第 6 节讨论子高斯尾部的充分性。

实验结果

研究问题

  • RQ1在数据协方差的哪些谱条件下,插值/过参数化估计量可以实现低泛化误差?
  • RQ2在岭回归中,在不假设独立性的前提下,如何对偏差和方差项进行界定?
  • RQ3前 k 个特征方向的分离在实现无害过拟合中起到什么作用?
  • RQ4在某些尾部光谱下,负正则化是否可能是最优的?有哪些充分条件?
  • RQ5协方差的尾部行为如何影响岭回归中的最优正则化?

主要发现

  • 偏差项界与高维尾部部分和低维头部部分的分解一致,显示尾部能量如何贡献于误差。
  • 方差界通过在 A_k 上使用 CondNum 而不是独立性,一般化了 Bartlett 等人的结果,产生尖锐的非渐近結果。
  • 对于岭回归,结果扩展到 λ>0,并给出负正则化可能最优的条件。
  • 分析表明无害过拟合可以在对协方差尾部的更宽松条件下发生,这取决于 A_k 的条件数而非独立性。
  • 本文提供并分析了一个核心对象 A_k,它通过特征值尾部和岭参数 λ 控制偏差和方差。
  • 研究表明在某些尾部和噪声能量条件下,负正则化可以改善超额风险(第 8 节)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。