QUICK REVIEW

[논문 리뷰] Optimal Regularization Can Mitigate Double Descent

Preetum Nakkiran, Prayaag Venkat|arXiv (Cornell University)|2020. 03. 04.

Sparse and Compressive Sensing Techniques참고 문헌 44인용 수 48

한 줄 요약

이 논문은 최적화된 L2 규제(릿지)가 특정 선형 설정에서 데이터나 모델 크기가 증가함에 따라 단조로운 테스트 성능을 낳을 수 있음을 보이고, 경험적으로 이를 신경망과 같은 더 넓은 모델로 확장한다.

ABSTRACT

Recent empirical and theoretical studies have shown that many learning algorithms -- from linear regression to neural networks -- can have test performance that is non-monotonic in quantities such the sample size and model size. This striking phenomenon, often referred to as "double descent", has raised questions of if we need to re-think our current understanding of generalization. In this work, we study whether the double-descent phenomenon can be avoided by using optimal regularization. Theoretically, we prove that for certain linear regression models with isotropic data distribution, optimally-tuned $\ell_2$ regularization achieves monotonic test performance as we grow either the sample size or the model size. We also demonstrate empirically that optimally-tuned $\ell_2$ regularization can mitigate double descent for more general models, including neural networks. Our results suggest that it may also be informative to study the test risk scalings of various algorithms in the context of appropriately tuned regularization.

연구 동기 및 목표

데이터 및 모델 증가에 따른 이중 하강 현상을 동기화하고 정의한다.
고차원 선형 회귀에서 최적의 L2 정규화가 테스트 위험을 단조롭게 만들 수 있는지 조사한다.
투영 및 무작위 특성 설정에서 모델 단위의 단조성으로 분석을 확장한다.
신경망과 CNN에서 최적 정규화로 인한 단조성을 보여주는 실증적 근거를 제시한다.
일반 공분산 구조에 대한 한계, 반례 및 확장 가능성에 대해 논의한다.

제안 방법

등방성 가우시안 공분변수를 갖는 고차원 선형 모델에서 릿지 회귀를 분석하고, 잘 정의된 선형 진실을 사용한다.
등방성 설정에서 최적의 릿지 매개변수 lambda_opt를 도출하고 표본 크기 n과 무관하다는 것을 보인다(정리 2).
샘플별 단조성 증명: 최적으로 조정된 릿지를 사용할 때 n이 증가해도 기대 테스트 위험이 결코 증가하지 않는 것을 보인다(정리 1).
무작위 투영을 통해 d 차원 고정 모델 크기로 설정된 경우에 대해 모델 크기 증가의 단조성을 보인다(정리 3).
특이값 간섭과 위험의 일부 평가에 근거한 비점근적 주장(Lemmas 1 및 2)을 제공합니다.
비등방성 공변량, 임의 ReLU 특성 및 CNN에 대한 실험을 확장하여 최적 규제하에서의 경험적 단조성을 보여준다.
비가우시안 또는 이질적 설정에서 단조성이 성립하지 않는 반례를 논의하고 비등방성 설정에서의 적응 규제를 제안한다(제6장).

실험 결과

연구 질문

RQ1최적의 L2 규제가 선형 회귀에서 이중 하강을 제거하거나 완화할 수 있는가?
RQ2정규화 강도가 최적으로 조정될 때 데이터 증가나 모델 크기가 증가함에 따라 테스트 성능이 단조로운가?
RQ3프로젝션을 통해 더 낮은 차원의 부분공간으로의 모델 크기 증가에 대해 모델 단위의 이중 하강으로 확장되는가?
RQ4이러한 단조성 특성이 등방성 가우시나를 넘어 일반적인 공변량 구조에 어떻게 확장되는가?
RQ5신경망 및 CNN에서 데이터 의존적 규제의 적응적 사용이 실험적으로 어떤 시사점을 갖는가?

주요 결과

최적으로 조정된 릿지 회귀는 등방성 선형 회귀에서 샘플 증가에 따른 테스트 성능이 단조롭게 향상됨(샘플별 단조성).
최적의 릿지 매개변수 lambda_opt는 등방성 설정에서 n에 독립적이며, 기대 위험은 단조성 주장에 용이한 형태로 표현될 수 있다.
모델 크기를 d 차원 부분공간으로 무작위 투영하는 설정에서 최적화된 릿지 회귀는 테스트 성능의 단조성을 달성한다(모델 크기 단조성).
실험적으로, 최적의 L2 규제는 비등방성 회귀, 임의 ReLU 특성, 컨볼루션 신경망에서 이중 하강을 완화한다.
최적 규제로 정규화된 릿지 회귀가 특정 비가우시안 또는 이질적 설정에서 단조롭지 않을 수 있는 반례가 존재하며, 적응형 규제의 접근을 촉진한다.
본 연구는 적절히 조정된 규제 하에서 알고리즘의 테스트 위험 스케일링을 연구하는 것이 일반화 이해의 경로임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.