QUICK REVIEW

[논문 리뷰] A Modern Take on the Bias-Variance Tradeoff in Neural Networks

Brady Neal, Sarthak Mittal|arXiv (Cornell University)|2018. 10. 19.

Neural Networks and Applications참고 문헌 55인용 수 74

한 줄 요약

저자들은 현대 신경망에서 편향(bias)과 분산(variance)을 측정하고 폭(width)이 증가함에 따라 둘 다 감소할 수 있음을 보여주며, 고전적인 편향-분산 트레이드오프에 도전한다. 또한 분산을 샘플링과 최적화 구성 요소로 분해하고 이를 뒷받침하는 이론을 제공한다.

ABSTRACT

The bias-variance tradeoff tells us that as model complexity increases, bias falls and variances increases, leading to a U-shaped test error curve. However, recent empirical results with over-parameterized neural networks are marked by a striking absence of the classic U-shaped test error curve: test error keeps decreasing in wider networks. This suggests that there might not be a bias-variance tradeoff in neural networks with respect to network width, unlike was originally claimed by, e.g., Geman et al. (1992). Motivated by the shaky evidence used to support this claim in neural networks, we measure bias and variance in the modern setting. We find that both bias and variance can decrease as the number of parameters grows. To better understand this, we introduce a new decomposition of the variance to disentangle the effects of optimization and data sampling. We also provide theoretical analysis in a simplified setting that is consistent with our empirical findings.

연구 동기 및 목표

전통적인 편향-분산 관점의 동기를 부여하고 그것의 현대 신경망 적용 가능성을 제시한다.
다양한 데이터셋에서 네트워크 폭이 커질 때 예측 편향과 분산을 실증적으로 측정한다.
총 분산을 샘플링 구성요소와 최적화 구성요소로 분해하여 그 효과를 분리한다.
간소화된 설정에서의 경험적 관찰과 일치하는 이론적 분석을 제공한다.

제안 방법

제곱 손실 예측에 대한 편향-분산 분해를 정의하고 분류 맥락에 맞게 이를 적용한다.
전체 분산의 법칙을 사용하여 샘플링 대 최적화 분산을 구분하는 분산 분해를 도입한다.
다음 데이터셋들(MNIST, CIFAR-10, SVHN, 작은 MNIST, 그리고 다양한 폭의 사인 곡선 회귀 작업) 전반에 걸친 광범위한 실험을 수행한다.
부트스트랩 재현치를 사용하여 편향 및 분산 항을 추정하고 외부/내부 기대값에 대해 10/10 시드를 사용하며 99% 신뢰 구간을 보고한다.
최적화로 인한 분산은 폭이 커질수록 감소하고 샘플링으로 인한 분산은 점진적으로 포화되는 것을 보여준다.
과잉 파라미터화된 선형 모델 및 관련 설정에서의 이론적 통찰을 제공하여 경험적 발견을 뒷받침한다.

실험 결과

연구 질문

RQ1실제 설정에서 신경망 폭이 증가함에 따라 예측 편향이 감소하는가?
RQ2폭이 증가함에 따라 예측 분산은 어떻게 변하는가: 증가하는가, 감소하는가, 아니면 포화되는가?
RQ3분산을 최적화 주도 구성요소와 샘플링 주도 구성요소로 분리할 수 있으며, 이들이 폭에 따라 어떻게 작용하는가?
RQ4선형 또는 단순화된 모델이 폭이 큰 네트워크에서 관찰된 편향-분산 동작을 설명하는 통찰을 제공하는가?

주요 결과

여러 데이터셋에 걸쳐 네트워크 폭이 증가함에 따라 편향과 분산이 모두 감소할 수 있다.
폭이 증가함에 따라 최적화로 인한 분산은 감소하고 과잉 파라미터화된 영역에서 무시해도 될 만큼 작아질 수 있다.
샘플링으로 인한 분산은 천천히 증가하다가 충분히 과잉 파라미터화되면 포화하는 경향이 있다.
전체 분산의 법칙은 이를 최적화 주도 항과 샘플링 주도 항으로 분해하게 하여 이들의 뚜렷한 역할을 분명히 한다.
실험적 결과는 관찰과 일치하는 단순화된 설정에서의 이론적 분석으로 보완된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.