QUICK REVIEW

[논문 리뷰] An Investigation of Why Overparameterization Exacerbates Spurious Correlations

Shiori Sagawa, Aditi Raghunathan|arXiv (Cornell University)|2020. 05. 09.

Reinforcement Learning in Robotics참고 문헌 36인용 수 83

한 줄 요약

본 논문은 제로 트레이닝 오류를 넘는 모델 규모의 증대가 허위 상관관계가 존재하는 경우 worst-group 성능을 악화시킬 수 있음을 보여주고, 다수 그룹의 샘플링 축소(subsampling)가 이 효과를 완화할 수 있으며 때로는 소수 집단의 가중치를 높이는 방법보다 더 낫다.

ABSTRACT

We study why overparameterization -- increasing model size well beyond the point of zero training error -- can hurt test error on minority groups despite improving average test error when there are spurious correlations in the data. Through simulations and experiments on two image datasets, we identify two key properties of the training data that drive this behavior: the proportions of majority versus minority groups, and the signal-to-noise ratio of the spurious correlations. We then analyze a linear setting and theoretically show how the inductive bias of models towards "memorizing" fewer examples can cause overparameterization to hurt. Our analysis leads to a counterintuitive approach of subsampling the majority group, which empirically achieves low minority error in the overparameterized regime, even though the standard approach of upweighting the minority fails. Overall, our results suggest a tension between using overparameterized models versus using all the training data for achieving low worst-group error.

연구 동기 및 목표

spurious correlations가 존재하는 상황에서 과다 매개변수화가 worst-group 오차에 미치는 영향을 동기 부여하고 정량화한다.
이 효과를 조정하는 데이터 속성들을 규명하고 과다 매개변수화된 모델의 기억 편향에 대한 이론적 통찰을 개발한다.
평균 성능과 worst-group 성능 측면에서 학습 전략(ERM vs reweighting)을 비교한다.

제안 방법

여러 규모의 모델에서 두 개의 이미지 데이터셋(CelebA 및 Waterbirds)에 대한 경험적 평가.
소수 그룹을 상향 가중하기 위해 가중치가 적용된 경험적 위험 최소화를 사용한다.
제어된 코어 특징과 허위 특징 및 잡음 구성요소를 가진 합성 데이터 설정도 구현한다.
메모라이제이션과 귀납 편향을 형식화하기 위한 선형 명시적 기억화 설정을 분석한다.
무규제 로지스틱 회귀를 무작위 특징 위에 학습시켜 과다 매개변수화 효과를 연구한다.
폭(width)을 증가시키거나 CelebA에서, 또는 프로젝션 수를 증가시켜 Waterbirds에서 모델 용량을 변화시킨다.

실험 결과

연구 질문

RQ1 spurious correlations가 존재하는 상황에서 과다 매개변수화가 worst-group 성능을 저하시키는 시점은 언제이며 그 이유는 무엇인가?
RQ2 데이터 분포 속성(다수/소수 비율 및 spurious-to-core 정보 비율)이 이 효과에 어떤 변화를 주는가?
RQ3 subsampling이나 가중치 증가와 같은 대체 학습 전략이 과다 매개변수화 영역의 worst-group 오차를 완화할 수 있는가?
RQ4 기억 편향으로 인한 실패를 설명하는 이론적 메커니즘은 무엇이며, 어떤 조건에서 memorization을 최소화하는 것이 강건성을 개선하는가?

주요 결과

과다 매개변수화가 평균 테스트 오차를 개선하지만 reweighting 하에서 CelebA와 Waterbirds의 worst-group 오차를 악화시킨다(최악의 그룹 오차는 과다 매개변수화된 모델에서 제로 트레이닝 오류로도 60%를 초과할 수 있음).
언더파라미터화된 모델은 overparameterized 모델과 비교해 가장 나은 worst-group 테스트 오차를 substantially 달성할 수 있다(예: CelebA 25.6%, Waterbirds 26.6% 근처).
합성 데이터에서 최적의 worst-group 오차는 언더파라미터화된 모델이 달성하고(예: 28.5%), 고도로 과다 매개변수화된 모델은 최악의 그룹 오차가 약 55%에 도달하는 한계에 머문다.
허위 특징을 제거하면 악화하는 overparameterization 효과가 제거되며, 이는 실패의 원인이 허위 특징에 의한 의존에서 비롯됨을 시사한다.
두 가지 데이터 속성이 이 효과를 확대한다: 다수 비율 p_maj가 높고 spurious-core 정보 비율 r_s:c가 높을수록 overparameterized 영역에서 worst-group 오차가 증가; 그룹의 균형이 이루어지고 r_s:c가 낮아지면 이 효과가 역전될 수 있다.
선형 이론 분석은 최소 노름 inductive bias가 overparameterized 모델에서 소수 포인트를 노이즈 특징을 통해 기억하도록 하여 worst-group 오차를 크게 만들며, 언더파라미터화는 이를 피하고 core 특징에 의존함으로써 강건성을 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.