QUICK REVIEW

[论文解读] Optimal ridge penalty for real-world high-dimensional data can be zero or negative due to the implicit ridge regularization

Dmitry Kobak, Jonathan Lomond|arXiv (Cornell University)|May 28, 2018

Statistical Methods and Inference参考文献 38被引用 24

一句话总结

本文表明，在高维、欠定情形（n ≪ p）下，线性回归的最优岭惩罚参数可为零甚至为负，这是由于低方差预测变量方向带来的隐式岭正则化所致。最小范数最小二乘估计器通常在无需显式正则化的情况下也能实现良好泛化，这挑战了传统观点，即大模型必须依赖强正则化以避免过拟合。

ABSTRACT

A conventional wisdom in statistical learning is that large models require strong regularization to prevent overfitting. Here we show that this rule can be violated by linear regression in the underdetermined $n\ll p$ situation under realistic conditions. Using simulations and real-life high-dimensional data sets, we demonstrate that an explicit positive ridge penalty can fail to provide any improvement over the minimum-norm least squares estimator. Moreover, the optimal value of ridge penalty in this situation can be negative. This happens when the high-variance directions in the predictor space can predict the response variable, which is often the case in the real-world high-dimensional data. In this regime, low-variance directions provide an implicit ridge regularization and can make any further positive ridge penalty detrimental. We prove that augmenting any linear model with random covariates and using minimum-norm estimator is asymptotically equivalent to adding the ridge penalty. We use a spiked covariance model as an analytically tractable example and prove that the optimal ridge penalty in this case is negative when $n\ll p$.

研究动机与目标

挑战传统观点，即在高维情形（n ≪ p）下，大模型始终需要强正则化以防止过拟合。
研究在欠定线性回归中，最小范数最小二乘估计器的泛化性能。
识别显式岭正则化（λ > 0）无法提升性能的条件。
正式证明：当响应变量由预测空间中的高方差方向预测时，最优岭惩罚参数可为负。
建立理论与实证联系，说明添加随机协变量与通过最小范数估计器实现的隐式岭正则化之间的关系。

提出的方法

使用模拟实验和真实高维数据集（如基因组学、化学计量学）评估不同岭惩罚参数下的泛化性能。
推导并分析脊形协方差模型，以解析方式证明当 n ≪ p 时，若信号位于高方差方向，则最优岭惩罚参数可为负。
证明：通过添加随机协变量并使用最小范数估计器，其渐近等价于施加特定惩罚的岭正则化。
利用核技巧表明，最小范数 OLS 估计器可表示为核形式，从而可推广至无限维特征空间。
证明：从零初始化开始的梯度下降会收敛至最小范数解，从而将优化动力学与隐式正则化联系起来。
在多种数据情形下，比较岭回归（λ ≥ 0）与最小范数 OLS 估计器（λ = 0）的风险（泛化误差）。

实验结果

研究问题

RQ1在何种条件下，最小范数最小二乘估计器在高维情形下优于带正惩罚的岭回归？
RQ2高维线性回归中的最优岭惩罚参数是否可能为负？若可能，原因是什么？
RQ3在 n ≪ p 情形下，预测变量空间中低方差方向带来的隐式岭正则化如何影响模型泛化性能？
RQ4添加随机协变量与最小范数估计器中隐式岭正则化之间存在何种关系？
RQ5为何在高维数据中，正向岭正则化有时会降低性能，与经典直觉相悖？

主要发现

在高维、欠定情形（n ≪ p）下，最小范数最小二乘估计器（λ = 0）的泛化性能可与或优于带正惩罚的岭回归。
当响应变量由预测空间中的高方差方向预测时，最优岭惩罚参数可为负，此时额外的正向正则化反而有害。
预测变量空间中的低方差方向，结合最小范数约束，可提供隐式岭正则化，其效果可能优于显式正向岭惩罚。
脊形协方差模型的解析结果证实：当 n ≪ p 且信号位于高方差方向时，最优岭惩罚参数为负。
通过添加随机协变量并使用最小范数估计器，其渐近等价于施加特定惩罚的岭正则化。
在真实数据集和模拟实验中，实证结果表明，正向岭正则化通常无法超越最小范数解的泛化性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。