QUICK REVIEW

[論文レビュー] Surprises in High-Dimensional Ridgeless Least Squares Interpolation

Trevor Hastie, Andrea Montanari|arXiv (Cornell University)|Mar 19, 2019

Sparse and Compressive Sensing Techniques被引用数 70

ひとこと要約

本論文は高次元回帰における最小L2ノルム（リッジなし）補間を分析し、線形・非線形設定を含む複数の特徴量生成モデルでダブルディセントや過パラメータ化の利点といった現象を示す。

ABSTRACT

Interpolators -- estimators that achieve zero training error -- have attracted growing attention in machine learning, mainly because state-of-the art neural networks appear to be models of this type. In this paper, we study minimum $\ell_2$ norm ("ridgeless") interpolation in high-dimensional least squares regression. We consider two different models for the feature distribution: a linear model, where the feature vectors $x_i \in {\mathbb R}^p$ are obtained by applying a linear transform to a vector of i.i.d. entries, $x_i = Σ^{1/2} z_i$ (with $z_i \in {\mathbb R}^p$); and a nonlinear model, where the feature vectors are obtained by passing the input through a random one-layer neural network, $x_i = φ(W z_i)$ (with $z_i \in {\mathbb R}^d$, $W \in {\mathbb R}^{p imes d}$ a matrix of i.i.d. entries, and $φ$ an activation function acting componentwise on $W z_i$). We recover -- in a precise quantitative way -- several phenomena that have been observed in large-scale neural networks and kernel machines, including the "double descent" behavior of the prediction risk, and the potential benefits of overparametrization.

研究の動機と目的

高次元回帰で訓練誤差をゼロにする補間子を動機づけ、理解する。
多様な特徴分布の下で、min-normおよびリッジ推定量の非漸近的および漸近的リスク特性を提供する。
特徴の幾何（等方性、潜在空間、非線形乱特徴）と予測リスクおよび補間挙動への影響を探る。
線形化ニューラルネット、カーネル法、および実務で観察される過パラメータ化現象との関連を確立する。

提案手法

高次元設定（p>n）におけるmin-norm（リッジレス）最小二乗法およびリッジ回帰を研究する。
線形モデル: x_i = Sigma^{1/2} z_i、非線形モデル: x_i = phi(W z_i); z_iはGaussian。
非漸近的リスク近似を導出し、場合によっては (Sigma, beta) に依存する漸近的リスク曲線を得る。
リスクをバイアスと分散に分解し、過パラメータ比 gamma = p/n によってこれらの成分がどのように変化するかを分析する。
線形モデル（定理2および定理5）および非線形モデル（定理8）の結果を証明し、普遍性とニューラルネットワークとの関連を議論する。
補間対正則化およびハイパーパラメータ決定としての交差検証の実用的含意を議論する。

実験結果

リサーチクエスチョン

RQ1様々な特徴共分散の下で、最小L2ノルム補間子は高次元線形回帰でどのように機能するか？
RQ2過パラメータ化（p>n）は予測リスクを低下させることができるか、またバイアスと分散のトレードオフがダブルディセントリスク曲線を生み出す条件は何か？
RQ3等方性、潜在空間、非線形乱特徴といった異なる特徴生成方式がリスクと最適正則化にどう影響するか？
RQ4この設定における補間、勾配降下ダイナミクス、およびリッジ正則化の関係は何か？
RQ5普遍性を通じてガウス特徴を超える結果の一般化の程度はどの程度か、そして非線形モデルは線形化トレーニングとどう関連するか？

主な発見

過パラメータ化した領域では、リスクは beta と Sigma に依存する非ゼロのバイアスを含む一方、分散はより大きな過パラメータ化に伴い低下する。
補間は特定の設定で正則化解より低リスクを生み、単純な最小二乗モデルでもダブルディセント挙動を示す。
最適なリッジ調整（交差検証を介して）は、多くの gamma および SNR シナリオで min-norm補間子を上回ることが多い。
Beta を Sigma の主固有ベクトルに整列させると、特定の潜在空間モデルで正規化が消え、ほぼ最適な min-norm 結果となる。
非線形ランダム特徴モデルは普遍性を示し、広い条件下でリスクは線形モデルと一致し、ニューラルネットワークへの適用範囲を支える。
潜在空間モデルでは、過パラメータ化を増やすとリスクが連続的に低下し、gamma が大きくなるにつれて全体最小に近づく。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。