Skip to main content
QUICK REVIEW

[论文解读] Asymptotics of Ridge (less) Regression under General Source Condition

Dominic Richards, Jaouad Mourtada|arXiv (Cornell University)|Jun 11, 2020
Statistical Methods and Inference参考文献 51被引用 20
一句话总结

本文在样本量与维度按比例增长的高维渐近框架下分析岭回归,表明真实回归参数的结构(通过源条件编码)决定了插值(无岭回归)是否为最优。关键发现是,当信号系数与高方差数据方向对齐时,即使信噪比有界,插值仍可为最优,这与以往在各向同性先验下需无限信噪比的结论形成对比。

ABSTRACT

We analyze the prediction error of ridge regression in an asymptotic regime where the sample size and dimension go to infinity at a proportional rate. In particular, we consider the role played by the structure of the true regression parameter. We observe that the case of a general deterministic parameter can be reduced to the case of a random parameter from a structured prior. The latter assumption is a natural adaptation of classic smoothness assumptions in nonparametric regression, which are known as source conditions in the the context of regularization theory for inverse problems. Roughly speaking, we assume the large coefficients of the parameter are in correspondence to the principal components. In this setting a precise characterisation of the test error is obtained, depending on the inputs covariance and regression parameter structure. We illustrate this characterisation in a simplified setting to investigate the influence of the true parameter on optimal regularisation for overparameterized models. We show that interpolation (no regularisation) can be optimal even with bounded signal-to-noise ratio (SNR), provided that the parameter coefficients are larger on high-variance directions of the data, corresponding to a more regular function than posited by the regularization term. This contrasts with previous work considering ridge regression with isotropic prior, in which case interpolation is only optimal in the limit of infinite SNR.

研究动机与目标

  • 理解在样本量 n 与维度 p 按比例增长的高维渐近框架下,岭回归的一般化误差。
  • 研究真实回归参数的结构(特别是与主成分的对齐方式)如何影响最优正则化。
  • 通过引入非各向同性参数结构,扩展先前关于岭回归中双 descent 和插值行为的研究。
  • 形式化源条件在高维线性回归中的作用,将其与反问题中的光滑性假设联系起来。
  • 提供一个精确的测试误差表征,其依赖于数据协方差、信号结构和正则化参数。

提出的方法

  • 作者将真实回归参数建模为从编码了数据协方差主成分上信号强度的结构化先验中随机抽取的分布。
  • 他们利用渐近随机矩阵理论的工具,推导出在此先验下岭回归的极限测试误差。
  • 该分析假设一个高维渐近框架,其中 n, p → ∞ 且 p/n → γ > 0。
  • 源条件被形式化为对参数在总体协方差矩阵特征空间投影上的先验,推广了经典的光滑性假设。
  • 作者推导出极限预测误差的闭式表达式,其依赖于信噪比、正则化参数、过参数化比率以及通过源条件编码的参数结构。
  • 他们在包含强特征与弱特征的简化两分量模型中验证了该框架,以说明模型误设的影响。

实验结果

研究问题

  • RQ1在何种条件下,无岭回归(插值)回归在高维设置下可实现最优预测误差?
  • RQ2真实参数与数据协方差的高方差主成分对齐,如何影响插值的最优性?
  • RQ3对真实参数假设各向同性先验,是否能对过参数化模型的一般化性能提供完整表征?
  • RQ4源条件(编码信号在特征空间中的分布)如何改变岭回归的双 descent 行为?
  • RQ5当信号集中在高方差方向时,即使信噪比有界,插值是否仍可为最优?

主要发现

  • 当真实参数在数据协方差的高方差方向上具有较大系数时,即使信噪比有界,插值(无岭回归)仍可为最优。
  • 岭回归的极限测试误差被精确表征为信噪比、正则化参数、过参数化比率以及编码信号结构的源条件的函数。
  • 在简化的两分量模型中,最优正则化依赖于强特征与弱特征中信号的相对强度,当信号集中在高方差分量时,插值为最优。
  • 该分析表明,标准的各向同性先验假设会导致次优表征,因为它排除了在有限信噪比下插值为最优的情形。
  • 在高维极限下,经验迹几乎必然收敛到其总体对应值,从而支持了极限误差表达式的推导。
  • 本文证明,源条件为过参数化线性回归中的参数结构建模提供了一个自然且直观的框架,扩展了经典正则化理论。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。