Skip to main content
QUICK REVIEW

[논문 리뷰] Benign overfitting in ridge regression

Alexander Tsigler, Peter L. Bartlett|arXiv (Cornell University)|2020. 09. 29.
Sparse and Compressive Sensing Techniques참고 문헌 16인용 수 84
한 줄 요약

논문은 독립성 가정의 제거를 통해 양성 과적합에 대한 이전 연구를 일반화하고, 과초매개변화하의 릿지 회귀에서 바이어스와 분산에 대한 뚜렷한 비점근적 경계와 음의 정규화가 최적일 수 있는 조건을 제시합니다.

ABSTRACT

In many modern applications of deep learning the neural network has many more parameters than the data points used for its training. Motivated by those practices, a large body of recent theoretical research has been devoted to studying overparameterized models. One of the central phenomena in this regime is the ability of the model to interpolate noisy data, but still have test error lower than the amount of noise in that data. arXiv:1906.11300 characterized for which covariance structure of the data such a phenomenon can happen in linear regression if one considers the interpolating solution with minimum $\ell_2$-norm and the data has independent components: they gave a sharp bound on the variance term and showed that it can be small if and only if the data covariance has high effective rank in a subspace of small co-dimension. We strengthen and complete their results by eliminating the independence assumption and providing sharp bounds for the bias term. Thus, our results apply in a much more general setting than those of arXiv:1906.11300, e.g., kernel regression, and not only characterize how the noise is damped but also which part of the true signal is learned. Moreover, we extend the result to the setting of ridge regression, which allows us to explain another interesting phenomenon: we give general sufficient conditions under which the optimal regularization is negative.

연구 동기 및 목표

  • 인터폴레이팅 모델이 과매개변수화된 설정에서 일반화할 수 있는 이유에 대한 이해를 자극합니다.
  • 기존 결과를 릿지 회귀와 비독립적 데이터 구성요소로 일반화합니다.
  • 고유 방향 분리 를 사용하여 뚜렷하고 비점근적인 바이어스와 분산 경계를 제공합니다.
  • 바이어스와 분산 경계의 중심이 되는 행렬 A_k와 그 조건수의 핵심성을 도입하고 분석합니다.
  • 음의 정규화가 최적일 수 있는 조건을 탐구합니다.

제안 방법

  • p>n 이상인 과매개변수 regime에서 제로 평균 서브가우시안 공변량을 갖는 릿지 회귀를 설정합니다.
  • 초과 위험을 바이어스 B와 분산 V 항으로 분해하고 이를 A, X, 공분산 스펙트럼을 통해 표현합니다.
  • 데이터를 처음 k개 고유 방향과 tail k:∞ 구성요소로 분리하는 고유 방향 분리를 도입하고 활용합니다: A_k = X_{k:∞} X_{k:∞}^{ op} +  I_n.
  • CondNum(k,δ,L) 및 NoncritReg(k,γ) 가정 하에서 B와 V에 대한 비점근적 경계를 제공하고, k^*를 효과적 스위치 포인트로 사용합니다.
  • 릿지 회귀(lambda>0)로의 분석 확장 및 음의 정규화가 최적일 수 있는 조건을 논의합니다.
  • 섹션 5와 섹션 6을 통해 부분가우시안 꼬리의 충분성 여부와 관련된 이전 연구와의 관계를 논의합니다.

실험 결과

연구 질문

  • RQ1데이터 공분산의 어떤 스펙트럼 조건에서 인터폴레이팅/과매개변수화 추정기가 낮은 일반화 오차를 달성할 수 있는가?
  • RQ2독립성 가정 없이 릿지 회귀의 바이어스와 분산 항을 어떻게 경계할 수 있는가?
  • RQ3처음 k개의 고유 방향의 분리는 benign overfitting을 달성하는 데 어떤 역할을 하는가?
  • RQ4특정 꼬리 스펙트럼에서 음의 정규화가 최적일 수 있는 충분 조건은 무엇인가?
  • RQ5공분산의 꼬리 특성이 릿지 회귀의 최적 정규화에 어떤 영향을 미치는가?

주요 결과

  • 바이어스 항의 경계는 높은 차원의 tail 부분과 낮은 차원의 head 부분으로의 분해와 일치하며, tail 에너지가 오차에 어떻게 기여하는지 보여줍니다.
  • 분산 경계는 독립성 대신 A_k에서 CondNum을 사용하여 바틀리트 등과의 일반화를 이룬 비점근적 결과를 제공합니다.
  • 릿지 회귀의 경우 λ>0에 대한 확장과 음의 정규화가 최적일 수 있는 조건을 제시합니다.
  • 독립성에 의존하지 않고도 A_k의 조건수에 의존하는 꼬리의 조건으로 인해 benign overfitting이 더 넓은 조건에서 발생할 수 있음을 보입니다.
  • 본 논문은 바이어스와 분산을 모두 지배하는 중심 객체 A_k를 제시하고 분석하며, 꼬리의 고유값들과 릿지 매개변수 λ의 관계를 통해 이를 설명합니다.
  • 특정 꼬리와 노이즈 에너지 조건에서 음의 정규화가 초과 위험을 개선할 수 있음을 제시합니다(섹션 8).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.