QUICK REVIEW

[논문 리뷰] Surprises in High-Dimensional Ridgeless Least Squares Interpolation

Trevor Hastie, Andrea Montanari|arXiv (Cornell University)|2019. 03. 19.

Sparse and Compressive Sensing Techniques인용 수 70

한 줄 요약

본 논문은 고차원 회귀에서 최소 L2 노름(ridgeless) 보간을 분석하고, 선형 및 비선형 설정을 포함한 여러 특성 생성 모델에 걸쳐 더블 디센트(double descent)와 과매개화(overparametrization)의 이점을 보인다.

ABSTRACT

Interpolators -- estimators that achieve zero training error -- have attracted growing attention in machine learning, mainly because state-of-the art neural networks appear to be models of this type. In this paper, we study minimum $\ell_2$ norm ("ridgeless") interpolation in high-dimensional least squares regression. We consider two different models for the feature distribution: a linear model, where the feature vectors $x_i \in {\mathbb R}^p$ are obtained by applying a linear transform to a vector of i.i.d. entries, $x_i = Σ^{1/2} z_i$ (with $z_i \in {\mathbb R}^p$); and a nonlinear model, where the feature vectors are obtained by passing the input through a random one-layer neural network, $x_i = φ(W z_i)$ (with $z_i \in {\mathbb R}^d$, $W \in {\mathbb R}^{p imes d}$ a matrix of i.i.d. entries, and $φ$ an activation function acting componentwise on $W z_i$). We recover -- in a precise quantitative way -- several phenomena that have been observed in large-scale neural networks and kernel machines, including the "double descent" behavior of the prediction risk, and the potential benefits of overparametrization.

연구 동기 및 목표

고차원 회귀에서 0 학습 오차를 달성하는 보간자에 대한 동기 부여 및 이해.
다양한 특성 분포하에서 min-norm 및 ridge 추정량의 비점진(non-asymptotic) 및 점근적(asymptotic) 위험 특성화 제공.
특성 기하학(등방성, 잠재 공간, 비선형 무작위 특성)이 예측 위험 및 보간 동작에 미치는 영향 탐구.
선형화된 신경망, 커널 방법, 실제에서 관찰되는 과매개화 현상 간의 연결 Establish.

제안 방법

고차원 설정(p>n)에서 min-norm(ridgeless) 최소제곱 및 ridge 회귀를 연구.
특성 분포를 선형으로 모델: x_i = Sigma^{1/2} z_i 및 비선형으로 모델: x_i = phi(W z_i); z_i는 가우시안.
비점진 위험 근사치를 도출하고, 경우에 따라 (Sigma, beta)에 의존하는 점근적 위험 곡선을 도출.
위험을 편향(bias)과 분산(variance)으로 분해하고, overparametrization 비율 gamma = p/n에 따라 이 성분들이 어떻게 변화하는지 분석.
선형 모델(정리 2, 정리 5) 및 비선형 모델(정리 8)에 대한 결과를 증명하고, 보편성 및 신경망과의 연결 논의.
보간과 정규화, 교차검증을 튜닝 방법으로서의 실용적 함의 논의.

실험 결과

연구 질문

RQ1다양한 특성 공분산 하에서 고차원 선형 회귀에서 최소 L2 노름 보간자가 어떻게 작동하는가?
RQ2과매개화(p>n)가 더 낮은 예측 위험을 낳을 수 있는가, 그리고 바이어스와 분산 간의 트레이드오프가 더블 디센트 위험 곡선을 만들어내는 조건은 무엇인가?
RQ3등방성, 잠재 공간, 비선형 무작위 특성 생성 방식이 위험 및 최적 정규화에 어떤 영향을 미치는가?
RQ4이 설정에서 보간, 경사하강법 역학, Ridge 정규화 사이의 관계는 무엇인가?
RQ5가우시안 특성을 넘어선 일반화 가능성은 어느 정도이며, 비선형 모델은 선형화된 학습과 어떤 관련이 있는가?

주요 결과

과매개화 규칙에서 위험은 beta와 Sigma에 의존하는 비 vanishing 편향을 포함하고, 반면 분산은 더 큰 과매개화에 따라 감소한다.
일부 설정에서 보간은 정규화된 해보다 위험을 낮출 수 있으며, 단순 최소제곱 모델에서도 더블 디센트 동작을 보인다.
교차검증을 통한 최적 Ridge 조정은 많은 gamma 및 SNR 시나리오에서 min-norm 보간자보다 성능이 우수한 경향을 보인다.
Sigma의 주 eigen벡터와 정렬된 beta는 특정 잠재 공간 모델에서 정규화가 사라지고 거의 최적의 min-norm 결과로 이어질 수 있다.
비선형 무작위 특성 모델은 보편성을 보이며: 광범위한 조건에서 선형 모델의 위험과 일치하여 신경망에 더 넓은 적용 가능성을 지지한다.
잠재 공간 모델에서 과매개화를 증가시키면 위험을 계속 감소시키고, gamma가 커질수록 전역 최솟값에 접근한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.