Skip to main content
QUICK REVIEW

[논문 리뷰] Rethinking Bias-Variance Trade-off for Generalization of Neural Networks

Zitong Yang, Yaodong Yu|arXiv (Cornell University)|2020. 02. 26.
Adversarial Robustness in Machine Learning참고 문헌 31인용 수 81
한 줄 요약

이 논문은 신경망에서 바이어스가 너비가 커질수록 감소하는 반면 분산은 단모드적(증가했다가 감소)임을 보여주며, 단조, 이중-감소(double-descent) 및 단모드 등 다양한 위험 곡선을 유도하고 이론적 뒷받침으로 두층 선형 모델을 제시한다.

ABSTRACT

The classical bias-variance trade-off predicts that bias decreases and variance increase with model complexity, leading to a U-shaped risk curve. Recent work calls this into question for neural networks and other over-parameterized models, for which it is often observed that larger models generalize better. We provide a simple explanation for this by measuring the bias and variance of neural networks: while the bias is monotonically decreasing as in the classical theory, the variance is unimodal or bell-shaped: it increases then decreases with the width of the network. We vary the network architecture, loss function, and choice of dataset and confirm that variance unimodality occurs robustly for all models we considered. The risk curve is the sum of the bias and variance curves and displays different qualitative shapes depending on the relative scale of bias and variance, with the double descent curve observed in recent literature as a special case. We corroborate these empirical results with a theoretical analysis of two-layer linear networks with random first layer. Finally, evaluation on out-of-distribution data shows that most of the drop in accuracy comes from increased bias while variance increases by a relatively small amount. Moreover, we find that deeper models decrease bias and increase variance for both in-distribution and out-of-distribution data.

연구 동기 및 목표

  • 왜 더 큰 신경망이 일반적으로 클래식한 바이어스-분산 기대에도 불구하고 더 잘 일반화되는지 설명한다.
  • 네트워크 너비, 아키텍처, 손실 함수, 데이터 세트에 따라 바이어스와 분산이 어떻게 의존하는지 경험적으로 특징화한다.
  • 정규화된 단순 모델에서 단모형 분산을 검증하는 이론적 분석을 제공한다.
  • 깊이(depth)가 바이어스/분산에 미치는 영향과 CIFAR10-C를 사용한 분포 밖(out-of-distribution) 성능에 대한 시사점을 검토한다.
  • 현대 ML에서 관찰되는 이중-감소 현상과의 관계를 제시한다.

제안 방법

  • 일반화된 Bregman 발산을 사용하여 제곱손실과 교차 엔트로피 손실에 대한 무작위 설계 바이어스-분산 분해를 정의한다.
  • 다양한 데이터 분할에서 다수의 모델을 학습시키고 편향을 측정하며 무편향 추정기로 분산을 추정하여 경험적으로 측정한다.
  • 네트워크 너비, 아키텍처, 손실 함수, 데이터 세트를 변경하여 바이어스의 단조성과 분산의 단모를 관찰한다.
  • 랜덤한 첫 번째 층을 갖는 이층 선형 네트워크에 대한 이론적 분석을 수행하여 비대칭적 제약에서 바이어스의 단조성과 분산의 단모를 증명한다.
  • 깊이가 바이어스와 분산에 미치는 영향을 분석하고 CIFAR10-C를 사용하여 분포 밖 성능을 연구한다.

실험 결과

연구 질문

  • RQ1네트워크 너비가 증가함에 따라 신경망에서 바이어스는 어떻게 작용하는가?
  • RQ2아키텍처와 손실 함수 전반에 걸쳐 너비에 따른 분산은 어떻게 작용하는가?
  • RQ3바이어스와 분산의 상대적 규모에 따라 전체 위험 곡선은 어떤 모양을 취하는가?
  • RQ4깊은 네트워크가 분포 내(in-distribution) 및 분포 밖(out-of-distribution) 데이터에 대한 바이어스-분산 역학을 바꾼가?
  • RQ5관찰된 바이어스-분산 행동을 재현하고 피크 위치를 설명하는 단순화된 이층 선형 모델이 가능한가?

주요 결과

  • 너비가 증가함에 따라 바이어스가 단조적으로 감소한다는 것은 고전 이론과 일치한다.
  • 분산은 단모형(종 모양): 너비에 따라 증가했다가 감소한다는 것이 아키텍처와 데이터 세트 전반에서 관찰된다.
  • 리스크 곡선은 바이어스와 분산의 상대적 크기에 따라 단조롭거나 이중-감소(d로바) 또는 단모형이 될 수 있다.
  • 깊은 모델은 바이어스를 감소시키는 경향이 있지만 분산은 증가시키는 경향이 있어, 깊이가 일반화에 도움을 주는 주된 메커니즘은 바이어스의 감소를 통한 경우가 많다.
  • 분포 밖 데이터에서 대부분의 정확도 하락은 증가된 바이어스에서 비롯되며 분산은 기여가 적다.
  • 랜덤한 첫 번째 층을 가진 이층 선형 모델은 동일한 바이어스의 단조성과 분산의 단모를 보이며, 관찰된 현상을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.