Skip to main content
QUICK REVIEW

[论文解读] Bias-variance decomposition of overparameterized regression with random linear features

Jason W. Rocks, Pankaj Mehta|arXiv (Cornell University)|Mar 10, 2022
Gaussian Processes and Bayesian Inference参考文献 42被引用 6
一句话总结

本文使用零温度腔方法,对具有随机线性特征的过参数化线性回归进行了严格的偏差-方差分解。它识别出由三个相变分隔的三个不同区域,包括两次进入训练误差为零的插值区域,且表明在插值相变点处发散的是方差而非偏差,这种发散由赫essian矩阵中的小非零特征值通过随机矩阵理论驱动。

ABSTRACT

In classical statistics, the bias-variance trade-off describes how varying a model's complexity (e.g., number of fit parameters) affects its ability to make accurate predictions. According to this trade-off, optimal performance is achieved when a model is expressive enough to capture trends in the data, yet not so complex that it overfits idiosyncratic features of the training data. Recently, it has become clear that this classic understanding of the bias-variance must be fundamentally revisited in light of the incredible predictive performance of "overparameterized models" -- models that avoid overfitting even when the number of fit parameters is large enough to perfectly fit the training data. Here, we present results for one of the simplest examples of an overparameterized model: regression with random linear features (i.e. a two-layer neural network with a linear activation function). Using the zero-temperature cavity method, we derive analytic expressions for the training error, test error, bias, and variance. We show that the linear random features model exhibits three phase transitions: two different transitions to an interpolation regime where the training error is zero, along with an additional transition between regimes with large bias and minimal bias. Using random matrix theory, we show how each transition arises due to small nonzero eigenvalues in the Hessian matrix. Finally, we compare and contrast the phase diagram of the random linear features model to the random nonlinear features model and ordinary regression, highlighting the new phase transitions that result from the use of linear basis functions.

研究动机与目标

  • 通过使用标准教科书定义,解决先前随机特征模型偏差-方差分解中的不一致之处。
  • 推导随机线性特征模型中训练误差、测试误差、偏差和方差的解析表达式。
  • 识别并表征模型泛化行为中的三个不同区域和三个相变。
  • 通过随机矩阵理论,将相变与赫essian矩阵的特征值谱联系起来。
  • 将线性特征模型与非线性特征模型进行对比,突出线性基函数在促成额外相变中的作用。

提出的方法

  • 应用零温度腔方法,解析计算随机线性特征模型中的泛化误差、偏差和方差。
  • 推导标量敏感度的自洽方程,以表征赫essian矩阵的特征值谱。
  • 使用随机矩阵理论分析Wishart乘积矩阵 Z^T Z 的谱,将小非零特征值与相变联系起来。
  • 通过敏感度 χ 定义零特征值的占比,从而识别插值区域。
  • 求解关于重标度敏感度 ν 的三次方程,以确定特征值谱和相变边界的定位。
  • 通过 1000 至 150,000 次独立数值模拟验证分析结果,根据 Np 和 M 的大小,分别使用 Z^T Z 和 ZZ^T 计算特征值。

实验结果

研究问题

  • RQ1在标准定义下,随机线性特征模型在过参数化区域中的偏差-方差分解行为如何,特别是其表现?
  • RQ2是什么原因导致模型泛化误差图景中出现三个不同区域和三个相变?
  • RQ3为何在插值相变点处方差发散而偏差保持有限?这种行为如何与赫essian矩阵的特征值谱相关联?
  • RQ4线性特征如何导致非线性特征模型中不存在的额外相变?小非零特征值在此过程中起什么作用?
  • RQ5模型的相变和误差行为在多大程度上依赖于数据、特征和参数(M, Nf, Np)之间的相对比例?

主要发现

  • 随机线性特征模型表现出三个不同区域:一个训练误差有限且偏差较大的欠参数化区域,一个偏差保持常数的第二欠参数化区域,以及一个训练误差为零的过参数化(插值)区域。
  • 三个相变分隔了这些区域:两次进入插值区域的相变(每次均以测试误差发散为标志),以及一个在大偏差与最小偏差欠参数化区域之间的相变。
  • 在向插值区域的相变点处,方差发散,而偏差保持有限,这与早期研究中报告的偏差发散结果相矛盾,后者源于非标准定义。
  • 每个相变均由赫essian矩阵中出现的小非零特征值引起,这些特征值由敏感度 χ 捕获,并与Wishart乘积矩阵的谱相关联。
  • 零特征值的占比由 f_zero = max(0, 1 − α_f/α_p, 1 − α_p^−1) 给出,该表达式决定了插值区域的起始点,且取决于 Nf、Np 和 M 的相对比例。
  • 线性特征通过引入非线性特征模型中不存在的额外插值相变,其机制在于非线性基函数在设计矩阵中隐式正则化了小特征值,而这一机制在纯线性情况下不存在。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。