QUICK REVIEW

[논문 리뷰] On the Universality of the Double Descent Peak in Ridgeless Regression

David Holzmüller|arXiv (Cornell University)|2020. 10. 05.

Sparse and Compressive Sensing Techniques인용 수 2

한 줄 요약

이 논문은 레이블 노이즈 하에서 릿지 없는 선형 회귀에서 일반화 오차의 비점근적이고 분포에 종속되지 않는 하한을 설정하며, 과다 매개변수화된 영역에서 레이블 노이즈에 대한 내재적 민감성으로 인해 더블 디센트 피크가 랜덤 딥 네ural 네트워크, 랜덤 푸리에 특징, 다항식 커널을 포함한 광범위한 특징 매핑 클래스 전반에서 보편적으로 나타남을 증명한다.

ABSTRACT

We prove a non-asymptotic distribution-independent lower bound for the expected mean squared generalization error caused by label noise in ridgeless linear regression. Our lower bound generalizes a similar known result to the overparameterized (interpolating) regime. In contrast to most previous works, our analysis applies to a broad class of input distributions with almost surely full-rank feature matrices, which allows us to cover various types of deterministic or random feature maps. Our lower bound is asymptotically sharp and implies that in the presence of label noise, ridgeless linear regression does not perform well around the interpolation threshold for any of these feature maps. We analyze the imposed assumptions in detail and provide a theory for analytic (random) feature maps. Using this theory, we can show that our assumptions are satisfied for input distributions with a (Lebesgue) density and feature maps given by random deep neural networks with analytic activation functions like sigmoid, tanh, softplus or GELU. As further examples, we show that feature maps from random Fourier features and polynomial kernels also satisfy our assumptions. We complement our theory with further experimental and analytic results.

연구 동기 및 목표

레이블 노이즈 하에서 릿지 없는 선형 회귀의 기대 일반화 오차에 대한 비점근적이고 분포에 종속되지 않는 하한을 설정하는 것.
기존의 과소 매개변수화된 하한을 과다 매개변수화된(보간하는) 영역으로 확장하여, 모델이 훈련 데이터를 완벽하게 피팅하는 경우를 다루는 것.
이 하한이 적용되는 조건을 분석하며, 특히 거의 확실히 전위수를 갖는 설계 행렬을 가진 특징 매핑에 집중하는 것.
이 하한이 점점 더 날카롭게 수렴하며, 딥 네ural 네트워크와 랜덤 특징 매핑에서 유래한 실제적인 비i.i.d. 특징 분포에도 적용됨을 보여주는 것.
더블 디센트 피크가 특정 모델 가정의 산물이 아니라 과다 매개변수화된 모델에서 레이블 노이즈 민감도에 의해 유도되는 보편적 현상임을 보여주는 것.

제안 방법

Mourtada(2022)의 최소최대 프레임워크를 과다 매개변수화된 경우에 맞게 조정하여, 릿지 없는 선형 회귀에서 기대 초과 위험(일반화 오차)에 대한 비점근적 하한을 유도하는 것.
특징 행렬이 거의 확실히 전위수를 갖는 조건(FRK)을 도입하여, 훈련 데이터를 보간하는 해의 존재를 보장하는 것.
레이블 분포가 르베그 측도를 갖는 입력과 함께 분석적 활성화 함수를 가진 랜덤 딥 네ural 네트워크에서 유도된 특징 매핑에 대해 FRK 조건이 성립함을 보여주며, 이는 하한이 적용됨을 의미한다.
랜덤 푸리에 특징과 다항식 커널으로의 분석을 확장하여, 이러한 특징 매핑도 하한이 적용되기 위한 조건을 만족함을 증명하는 것.
고차원에서의 역 그램 행렬 ((W W^T)^{-1}) 의 행동을 분석하기 위해 랜덤 행렬 이론과 농도 부등식의 이론적 도구를 사용하는 것.
유도된 하한을 유한 폭의 신경 기저 커널과 랜덤 신경망 특징에 대한 경험적 및 이론적 결과와 비교하여, n, p → ∞ 근처에서 점점 더 날카롭게 수렴함을 확인하는 것.

실험 결과

연구 질문

RQ1릿지 없는 회귀에서 더블 디센트 피크는 다양한 특징 매핑 전반에서 보편적인 현상인가, 아니면 특정 모델 가정에 국한되는가?
RQ2과다 매개변수화된 영역에서 릿지 없는 선형 회귀에 대해 일반화 오차에 대한 분포에 종속되지 않는 하한을 설정할 수 있는가?
RQ3특징 공학은 릿지 없는 모델의 레이블 노이즈 민감도를 어느 정도 줄일 수 있는가?
RQ4분석적 활성함수를 가진 랜덤 딥 네ural 네트워크는 하한이 성립하기 위한 조건을 충족하는가?
RQ5기존의 하한과 비교해보았을 때, 제안된 하한은 타당성과 날카움의 측면에서 어떤가?

주요 결과

논문은 과다 매개변수화된 영역(p ≥ n)에서 레이블 노이즈 하에서 릿지 없는 선형 회귀의 기대 일반화 오차에 대한 비점근적이고 분포에 종속되지 않는 하한을 설정한다.
이 하한은 점점 더 날카롭게 수렴하므로, n, p → ∞ 근처에서 실제 오차 행동과 일치함을 확인하여 날카로움을 입증한다.
레이블 분포가 르베그 밀도를 가지며, 분석적 활성함수를 가진 랜덤 딥 네ural 네트워크에서 유도된 특징 매핑의 경우 FRK 조건이 성립하여 하한이 적용됨을 보장한다.
이 하한은 레이블 노이즈가 존재할 경우, 어떤 특징 매핑 설계를 하더라도 보간 임계점(n ≈ p) 근처에서 상당한 일반화 오차 피크를 피할 수 없음을 시사한다.
이 하한은 Muthukumar 등(2020)의 이전 결과보다 엄밀하게 더 강력하며, 하한이 명시적이고 서브가우시안 노름에 종속되지 않으며, 크기 면에서도 더 크므로, 표준 가정 하에 특징 공학으로 더블 디센트 피크를 제거할 수 없음을 보여준다.
분석 결과, 낮은 일반화 오차(ENoise < εσ²)를 달성하기 위해서는 강하게 과소 매개변수화된(p < εn) 또는 강하게 과다 매개변수화된(p > n/ε) 상태여야 하며, 이는 모델 설계의 근본적인 상충관계를 드러낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.