[论文解读] Surprises in High-Dimensional Ridgeless Least Squares Interpolation
本文分析高维回归中的最小L2范数(无脊ridge)插值,揭示双降现象以及在多种特征生成模型(包括线性和非线性设置)中过参数化的好处。
Interpolators -- estimators that achieve zero training error -- have attracted growing attention in machine learning, mainly because state-of-the art neural networks appear to be models of this type. In this paper, we study minimum $\ell_2$ norm ("ridgeless") interpolation in high-dimensional least squares regression. We consider two different models for the feature distribution: a linear model, where the feature vectors $x_i \in {\mathbb R}^p$ are obtained by applying a linear transform to a vector of i.i.d. entries, $x_i = Σ^{1/2} z_i$ (with $z_i \in {\mathbb R}^p$); and a nonlinear model, where the feature vectors are obtained by passing the input through a random one-layer neural network, $x_i = φ(W z_i)$ (with $z_i \in {\mathbb R}^d$, $W \in {\mathbb R}^{p imes d}$ a matrix of i.i.d. entries, and $φ$ an activation function acting componentwise on $W z_i$). We recover -- in a precise quantitative way -- several phenomena that have been observed in large-scale neural networks and kernel machines, including the "double descent" behavior of the prediction risk, and the potential benefits of overparametrization.
研究动机与目标
- 激励并理解在高维回归中实现零训练误差的插值器。
- 在不同特征分布下,为最小范数和岭回归估计量提供非渐近和渐近风险表征。
- 探讨特征几何(各向同性、潜在空间以及非线性随机特征)如何影响预测风险与插值行为。
- 建立线性化神经网络、核方法与实践中观察到的过参数化现象之间的联系。
提出的方法
- 在高维设置(p>n)中研究最小范数(无脊ridge)最小二乘和岭回归。
- 用线性模型的 x_i = Sigma^{1/2} z_i 和非线性模型的 x_i = phi(W z_i); z_i 高斯分布来建模特征分布。
- 推导非渐近风险近似值,且在某些情况下得到依赖于 (Sigma, beta) 的渐近风险曲线。
- 将风险分解为偏差和方差,并分析这些分量如何随过参数化比 gamma = p/n 变化而演化。
- 给出线性模型(定理2与定理5)和一个非线性模型(定理8)的结果,并讨论普适性以及与神经网络的联系。
- 讨论插值与正则化的实际意义,以及以交叉验证作为调优方法的应用。
实验结果
研究问题
- RQ1在不同特征协方差下,最小L2范数插值器在高维线性回归中的表现如何?
- RQ2过参数化(p>n)是否能够带来更低的预测风险,在什么条件下偏差与方差的权衡会产生双降风险曲线?
- RQ3不同特征生成方案(各向同性、潜在空间以及非线性随机特征)如何影响风险和最优正则化?
- RQ4在此设置中,插值、梯度下降动力学与岭正则化之间的关系是什么?
- RQ5结果在多大程度上通过普适性推广到高斯特征以外的情况,以及非线性模型与线性化训练之间的关系如何?
主要发现
- 在过参数化的范围内,风险包含依赖于 beta 和 Sigma 的非零偏差,而方差随着更大程度的过参数化而降低。
- 插值可能产生低于正规化解的风险,甚至在简单的最小二乘模型中也出现双降行为。
- 通过交叉验证进行的最优岭回归调参在许多 gamma 和信噪比情形下通常优于最小范数插值器。
- 将 beta 与 Sigma 的前导特征向量对齐在特定潜在空间模型中可能导致正则化消失并接近最优的最小范数结果。
- 非线性随机特征模型表现出普适性:在广泛条件下风险与线性模型相当,支持对神经网络的更广泛适用性。
- 在潜在空间模型中,增加过参数化可以持续降低风险,随着 gamma 变大而趋近全局最小值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。