QUICK REVIEW

[논문 리뷰] Triple descent and the two kinds of overfitting: Where & why do they appear?

Stéphane d’Ascoli, Levent Sagun|arXiv (Cornell University)|2020. 06. 05.

Sparse and Compressive Sensing Techniques참고 문헌 54인용 수 16

한 줄 요약

이 논문은 신경망에서 두 가지 별개의 과적합 현상, 즉 선형 회귀에서의 노이즈 피팅으로 인한 N=D 시점의 선형 피크와 비선형 모델에서의 가중치 초기화 분산으로 인한 N=P 시점의 비선형 피크를 식별하고 분리한다. 랜덤 피처 및 신경망 모델을 사용하여, 이 두 피크가 노이즈가 있는 회귀에서 공존함을 보이며, 비선형성은 선형 피크를 억제하고 비선형 피크를 강화한다. 또한 정규화나 앙상블화에 의해만 비선형 피크가 완화되며, 선형 피크는 그렇지 않다.

ABSTRACT

A recent line of research has highlighted the existence of a "double descent" phenomenon in deep learning, whereby increasing the number of training examples $N$ causes the generalization error of neural networks to peak when $N$ is of the same order as the number of parameters $P$. In earlier works, a similar phenomenon was shown to exist in simpler models such as linear regression, where the peak instead occurs when $N$ is equal to the input dimension $D$. Since both peaks coincide with the interpolation threshold, they are often conflated in the litterature. In this paper, we show that despite their apparent similarity, these two scenarios are inherently different. In fact, both peaks can co-exist when neural networks are applied to noisy regression tasks. The relative size of the peaks is then governed by the degree of nonlinearity of the activation function. Building on recent developments in the analysis of random feature models, we provide a theoretical ground for this sample-wise triple descent. As shown previously, the nonlinear peak at $N\!=\!P$ is a true divergence caused by the extreme sensitivity of the output function to both the noise corrupting the labels and the initialization of the random features (or the weights in neural networks). This peak survives in the absence of noise, but can be suppressed by regularization. In contrast, the linear peak at $N\!=\!D$ is solely due to overfitting the noise in the labels, and forms earlier during training. We show that this peak is implicitly regularized by the nonlinearity, which is why it only becomes salient at high noise and is weakly affected by explicit regularization. Throughout the paper, we compare analytical results obtained in the random feature model with the outcomes of numerical experiments involving deep neural networks.

연구 동기 및 목표

신경망에서 두 가지 과적합 유형을 구분하는 것: 하나는 입력 차원 D와 연관된 것이고, 다른 하나는 모델 파라미터 P와 연관된 것.
동일한 모델에서 두 과적합 피크—선형 피크(N=D)와 비선형 피크(N=P)—가 공존할 수 있는지 조사하는 것.
활성화 함수의 비선형성 정도가 각 피크의 두드러짐에 미치는 영향을 이해하는 것.
정규화와 앙상블화가 각 피크에 미치는 영향을 분석하고, 두 과적합 유형에 대해 동일하게 영향을 미치는지 여부를 판단하는 것.
훈련 중 피크 형성의 시간적 동역학을 분석하여, 피크가 형성되는 순서를 이해하는 것.

제안 방법

비선형성의 영향을 분리하기 위해 다양한 활성화 함수를 사용한 랜덤 피처 모델에서 테스트 손실을 분석하여 과적합에 미치는 영향을 연구한다.
테스트 손실의 편향-분산 분해를 수행하여 선형 피크는 노이즈 피팅에 기인하고, 비선형 피크는 초기화 분산에 기인함을 규명한다.
랜덤 피처 모델에서 릿지 회귀를 사용하여 그램 행렬의 고유값 분포를 분석하고, 작은 고유값과의 관계를 이론적으로 연구한다.
ReLU, Tanh, 선형 활성화를 사용한 완전 연결 신경망에서의 수치 실험을 통해 이론적 결과를 검증한다.
정규화(가중치 감쇠)와 앙상블(여러 랜덤 시드 평균)을 적용하여 두 피크에 미치는 차별적 영향을 평가한다.
훈련 중 테스트 손실의 변화를 추적하여 피크 형성 시점의 비교를 수행하고, 고유모드 학습 속도와의 연관성을 연결한다.

실험 결과

연구 질문

RQ1N=D 시점의 선형 피크와 N=P 시점의 비선형 피크는 서로 별개의 과적합 현상인가?
RQ2두 피크가 동일한 모델에서 공존할 수 있으며, 만약 그렇다면 어떤 조건에서 공존하는가?
RQ3활성화 함수의 비선형성이 각 피크의 상대적 강도에 어떤 영향을 미치는가?
RQ4정규화 또는 앙상블화로 두 피크를 동일하게 억제할 수 있는가, 아니면 오직 하나만 억제되는가?
RQ5두 피크는 훈련 중 다른 시간에 형성되는가, 만약 그렇다면 그 이유는 무엇인가?

주요 결과

N=D 시점의 선형 피크는 오직 레이블 노이즈 과적합 때문이며, 노이즈가 없는 영역에서는 사라지며, 이는 선형 회귀 유사 행동에 기인함을 확인한다.
N=P 시점의 비선형 피크는 랜덤 피처 초기화의 분산에 기인하며, 레이블 노이즈가 없더라도 지속되므로, 가중치 초기화에 대한 본질적인 민감성을 나타낸다.
비선형성 증가(예: 선형에서 ReLU 또는 Tanh로 전환)는 암시적 정규화로 인해 선형 피크를 약화시키고, 초기화 분산 증가로 인해 비선형 피크를 강화한다.
정규화와 앙상블화는 비선형 피크를 효과적으로 억제하지만, 선형 피크에는 거의 영향을 주지 않으며, 이는 이미 비선형성에 의해 암시적으로 정규화되어 있기 때문이다.
비선형 피크는 선형 피크보다 훈련 중 후반에 형성되며, 이는 작은 고유모드의 그램 행렬 학습이 느리게 수렴하기 때문이다.
(P, N) 단계 공간에서 두 피크가 공존할 수 있으며, 이는 특히 높은 노이즈 수준에서 샘플 기반 트리플 디센트 곡선을 유도한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.