QUICK REVIEW

[논문 리뷰] Reconciling modern machine learning and the bias-variance trade-off

Mikhail Belkin, Daniel Hsu|arXiv (Cornell University)|2018. 12. 28.

Machine Learning and Data Classification인용 수 93

한 줄 요약

이 논문은 전통적인 기계학습 이론과 현대적 실무 간의 모순을 해결하기 위해 기존의 U자형 편향-분산 트레이드오프를 확장한 '더블 디센트(다중 기울기) 곡선'을 도입한다. 이는 모델의 용량이 데이터를 정확히 피팅하는 '인터폴레이션'을 초과해도 일반화 성능이 향상될 수 있음을 보여주며, 딥 뉴럴 네트워크와 같은 과다 매개변수화된 모델이 실무에서 잘 일반화되는 이유를 설명한다.

ABSTRACT

Breakthroughs in machine learning are rapidly changing science and society, yet our fundamental understanding of this technology has lagged far behind. Indeed, one of the central tenets of the field, the bias-variance trade-off, appears to be at odds with the observed behavior of methods used in the modern machine learning practice. The bias-variance trade-off implies that a model should balance under-fitting and over-fitting: rich enough to express underlying structure in data, simple enough to avoid fitting spurious patterns. However, in the modern practice, very rich models such as neural networks are trained to exactly fit (i.e., interpolate) the data. Classically, such models would be considered over-fit, and yet they often obtain high accuracy on test data. This apparent contradiction has raised questions about the mathematical foundations of machine learning and their relevance to practitioners. In this paper, we reconcile the classical understanding and the modern practice within a unified performance curve. This curve subsumes the textbook U-shaped bias-variance trade-off curve by showing how increasing model capacity beyond the point of interpolation results in improved performance. We provide evidence for the existence and ubiquity of double descent for a wide spectrum of models and datasets, and we posit a mechanism for its emergence. This connection between the performance and the structure of machine learning models delineates the limits of classical analyses, and has implications for both the theory and practice of machine learning.

연구 동기 및 목표

기존의 편향-분산 이론과 현대 기계학습 실무 사이의 명백한 모순을 해결하기 위해, 과다 매개변수화된 모델이 훈련 데이터를 인터폴레이션함에도 불구하고 잘 일반화되는 이유를 설명한다.
기존의 U자형 편향-분산 곡선이 현대 모델, 특히 딥 뉴럴 네트워크의 성능을 설명하는 데 부적절하다는 것을 입증한다.
다양한 모델과 데이터셋에서 '더블 디센트' 일반화 오차 곡선의 존재성과 광범위한 존재를 확립한다.
인터폴레이션 임계점 이후 일반화 오차가 감소하는 이유를 설명하는 이론적 메커니즘을 제공하며, 과적합에 대한 전통적 가정에 도전한다.
기존 분석을 과다 매개변수화된 모델를 고려하도록 확장함으로써 기계학습의 이론적 기초를 재정의한다.

제안 방법

모델 용량에 따른 일반화 오차를 분석함으로써 기존의 U자형 편향-분산 트레이드오프를 더블 디센트 곡선으로 확장하는 통합된 성능 곡선을 제안한다.
인터폴레이션 영역(모델이 훈련 데이터를 정확히 피팅하는 영역) 포함하여 증가하는 모델 용량에 따른 일반화 오차를 분석한다.
다양한 모델(예: 선형 모델, 신경망)과 데이터셋을 대상으로 더블 디센트 현상을 실험적으로 입증하기 위해 광범위한 분석을 수행한다.
모델 용량, 데이터 구조, 일반화 오차 간의 이론적 프레임워크를 도입하여, 더블 디센트가 모델 복잡성과 데이터 기하학성 간의 상호작용으로 인해 나타남을 보여준다.
통계적 학습 이론을 활용하여, 데이터가 저차원 다양체에 위치할 경우 과다 매개변수화된 모델이 잘 일반화될 수 있음을 수식적으로 정립한다.
모델 용량이 훈련 샘플 수를 초과할 경우, 특히 고차원 설정에서 더블 디센트 곡선이 자연스럽게 나타남을 보여준다.

실험 결과

연구 질문

RQ1딥 뉴럴 네트워크와 같은 과다 매개변수화된 모델이 훈련 데이터를 인터폴레이션함에도 불구하고 잘 일반화되는 이유는 무엇인가, 이는 기존의 편향-분산 이론과 모순된다.
RQ2기존의 U자형 편향-분산 곡선은 현대 기계학습 모델의 일반화 행동을 충분히 기술하는가?
RQ3다양한 아키텍처와 데이터셋에서 더블 디센트 현상이 나타나는 조건은 무엇인가?
RQ4모델과 데이터의 어떤 구조적 또는 수학적 성질이 더블 디센트 행동을 유도하는가?
RQ5기존의 일반화 이해는 어떻게 확장되어 현대의 과다 매개변수화된 모델의 성공을 설명할 수 있는가?

주요 결과

더블 디센트 곡선은 선형 모델, 커널 방법, 딥 뉴럴 네트워크 등 다양한 모델과 다양한 데이터셋에서 실험적으로 관측된다.
일반화 오차는 인터폴레이션 임계점까지 모델 용량이 증가함에 따라 감소하는 것 외에도, 그 이후에도 계속 감소함을 보여주며, 이는 기존 이론과 모순된다.
더블 디센트 현상은 모델 용량이 훈련 샘플 수를 초과할 경우 특히 고차원 설정에서 강건하게 나타나며, 일반화 오차 감소의 핵심 요인로 작용한다.
더블 디센트의 발생은 데이터의 기하학적 구조와 모델의 인덕티브 바이어스, 특히 데이터가 저차원 다양체에 위치할 경우와 관련이 있다.
과다 매개변수화된 모델은 데이터의 내재된 구조에서 복잡도가 낮은 해를 선호하는 정규화된 리스크를 암묵적으로 최소화함으로써 잘 일반화될 수 있다.
기존의 편향-분산 트레이드오프는 더블 디센트 곡선에 의해 흡수되며, 이는 모델 일반화 성능을 더 포괄적이고 정확하게 기술하는 데 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.