Skip to main content
QUICK REVIEW

[논문 리뷰] More Data Can Hurt for Linear Regression: Sample-wise Double Descent

Preetum Nakkiran|arXiv (Cornell University)|2019. 12. 16.
Random Matrices and Applications참고 문헌 12인용 수 42
한 줄 요약

이 논문은 등방가우시안 공변량을 갖는 과매개변수화 선형 회귀를 분석하고 샘플 수에 대해 테스트 리스크가 비단조적일 수 있으며, 편향-분산 트레이드오프 때문에 n = d 근처에서 정점에 달한다.

ABSTRACT

In this expository note we describe a surprising phenomenon in overparameterized linear regression, where the dimension exceeds the number of samples: there is a regime where the test risk of the estimator found by gradient descent increases with additional samples. In other words, more data actually hurts the estimator. This behavior is implicit in a recent line of theoretical works analyzing "double-descent" phenomenon in linear models. In this note, we isolate and understand this behavior in an extremely simple setting: linear regression with isotropic Gaussian covariates. In particular, this occurs due to an unconventional type of bias-variance tradeoff in the overparameterized regime: the bias decreases with more samples, but variance increases.

연구 동기 및 목표

  • 과매개변수화된 선형 모델에서 비단조적 테스트 리스크를 이해하는 동기를 제공한다.
  • 데이터를 추가해 성능이 악화되는 샘플 크기 범위를 분리한다.
  • 현상을 설명하기 위한 직관과 근사 편향-분산 표현식을 제공한다.

제안 방법

  • 최소-노름 ridgeless 회귀 추정기(또는 최소제곱에 대한 경사하강법) 연구.
  • 초과 리스크를 편향과 분산 구성 요소로 분해하고 근사 표현식 B_n 및 V_n을 도출한다.
  • 데이터 행렬 X의 조건화와 Tr((XX^T)^{-1})에 대한 영향을 분석한다.
  • X ~ N(0,I_d)인 등방가우시안 공변량과 y = ⟨x,β⟩ + η, 단 ||β||_2 ≤ 1을 사용한다.
  • n ≤ d 영역에서의 닫힌-form 근사치를 제공하는 주장과 n > d에 대한 과소매개변수화 결과에 대한 참조를 제공한다.

실험 결과

연구 질문

  • RQ1고정된 차원 d에서 샘플 수 n에 따라 최소-노름 보간 추정기의 테스트 리스크가 어떻게 달라지는가?
  • RQ2과매개변수화 영역(n ≤ d)에서 초과 리스크의 편향과 분산 기여는 무엇인가?
  • RQ3데이터 행렬 X가 임계 영역 n ≈ d에서 왜 악조건이 되어 분산이 증가하는가?
  • RQ4샘플 하나를 더하는 것이 Tr((XX^T)^{-1}) 및 전체 리스크에 어떤 영향을 미치는가?
  • RQ5이론적 근사치가 유한한 d(예: d = 1000)에 대해 실험 관측과 일치하는가?

주요 결과

  • 테스트 리스크는 n에 대해 비단조적이다; 먼저 감소하다가 n = d에서 정점에 이르고 n이 d를 넘으면 다시 감소한다.
  • 과매개변수화 영역에서 편향 B_n은 n이 증가함에 따라 감소하는 반면 분산 V_n은 증가하고 임계점 근처에서 지배적이 된다.
  • γ = n/d < 1일 때의 근사 초과 리스크는 E[R̄(β̂)] ≈ (1 − γ)||β||^2 + σ^2 γ/(1−γ)이다.
  • 리스크의 정점은 n ≈ d일 때 X의 악조건화와 관련이 있으며, 노이즈 항 X^†η가 큰 크기로 팽창한다.
  • 분산의 trace 항은 Tr((XX^T)^{-1})가 d가 증가하고 n = γd일 때 γ/(1−γ)로 수렴하는 것을 보여 주며, 이로 인해 분산 급증이 설명된다.
  • n ≤ d 영역에 대해 정확한 유한 샘플 편향 및 분산 표현이 제시된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.