[논문 리뷰] Ensemble of Averages: Improving Model Selection and Boosting Performance in Domain Generalization
논문은 간단한 이동 평균 모델 프로토콜(SMA)과 이동 평균 모델의 앙상블(EoA)을 도입하여 도메인 일반화(domain generalization)을 개선하고, out-domain 성능의 안정성과 모델 선택의 신뢰성을 하이퍼파라미터 튜닝 없이 향상시킵니다. EoA가 DomainBed 벤치마크에서 ERM 기초 및 기존 DG 방법들보다 우수하다는 것을 이론적 편향-분산 통찰과 함께 보입니다.
In Domain Generalization (DG) settings, models trained independently on a given set of training domains have notoriously chaotic performance on distribution shifted test domains, and stochasticity in optimization (e.g. seed) plays a big role. This makes deep learning models unreliable in real world settings. We first show that this chaotic behavior exists even along the training optimization trajectory of a single model, and propose a simple model averaging protocol that both significantly boosts domain generalization and diminishes the impact of stochasticity by improving the rank correlation between the in-domain validation accuracy and out-domain test accuracy, which is crucial for reliable early stopping. Taking advantage of our observation, we show that instead of ensembling unaveraged models (that is typical in practice), ensembling moving average models (EoA) from independent runs further boosts performance. We theoretically explain the boost in performance of ensembling and model averaging by adapting the well known Bias-Variance trade-off to the domain generalization setting. On the DomainBed benchmark, when using a pre-trained ResNet-50, this ensemble of averages achieves an average of $68.0\%$, beating vanilla ERM (w/o averaging/ensembling) by $\sim 4\%$, and when using a pre-trained RegNetY-16GF, achieves an average of $76.6\%$, beating vanilla ERM by $6\%$. Our code is available at https://github.com/salesforce/ensemble-of-averages.
연구 동기 및 목표
- DG에서 최적화 역학이 인도메인과 아웃도메인 간의 성능 차이를 왜 혼란스럽게 만드는지 조사한다.
- DG 성능을 안정화하고 향상시키기 위한 간단하고 하이퍼파라미터가 필요 없는 이동 평균 프로토콜을 제안한다.
- 이동 평균 모델의 앙상블(EoA)이 전통적 앙상블보다 추가 이점을 제공함을 보인다.
- 도메인 일반화에 Bias-Variance 분해를 적용하여 이론적 시각을 제공한다.
- 다양한 백본에서 DomainBed에서 SMA와 EoA를 ERM 및 최첨단 DG 방법과 대조 벤치마크한다.
제안 방법
- 학습 도중 온라인(비평균) 모델과 이동 평균(MA) 모델을 정의한다.
- 테일 평균화(tail-averaging)를 제안한다: t0 반복 이후 SMA를 시작하고 끝까지 유지하며 검증과 테스트에 SMA를 사용한다.
- SMA가 인도메인 검증 정확도와 아웃도메인 테스트 정확도 간의 순위 상관을 향상시켜 신뢰할 수 있는 모델 선택을 가능하게 함을 보여준다.
- 이동 평균 모델 앙상블(EoA)이 비평균 모델들의 앙상블보다 더 나은 성능을 낸다는 것을 시연한다.
- 평균화/앙상블이 아웃도메인 오차를 왜 줄이는지에 대한 편향-분산 기반 이론적 근거를 제공한다.
- DomainBed 데이터셋에서 세 가지 사전 학습 백본(ResNet-50, ResNeXt-50 32x4d, RegNetY-16GF)을 사용하여 벤치마크한다.
실험 결과
연구 질문
- RQ1하이퍼파라미터가 없는 이동 평균 프로토콜(SMA)이 도메인 일반화에서 아웃도메인 불안정성을 줄이고 신뢰할 수 있는 조기 중단을 개선하는가?
- RQ2도메인 일반화 벤치마크에서 온라인 모델의 앙상블이나 단일 모델보다 EoA가 우수한 성능을 보이는가?
- RQ3편향-분산 관점이 DG에 어떻게 적응하여 모델 평균화 및 앙상블의 이점을 설명하는가?
- RQ4더 큰 사전학습 모델과 데이터셋이 DG에서 SMA와 EoA의 이점을 증폭시키는가?
- RQ5SMA가 인도메인 검증과 아웃도메인 테스트 성능 간의 순위 상관에 어떤 영향을 미치는가?
주요 결과
| Algorithm | PACS | VLCS | OfficeHome | TerraIncognita | DomainNet | Avg | |
|---|---|---|---|---|---|---|---|
| ResNet-50 (ImageNet pre-trained) - ERM (our runs) | 84.4 ± 0.8 | 77.1 ± 0.5 | 66.6 ± 0.2 | 48.3 ± 0.2 | 43.6 ± 0.1 | 64.0 | |
| ResNet-50 (ImageNet pre-trained) - Ensemble (our runs) | 87.6 | 78.5 | 70.8 | 49.2 | 47.7 | 66.8 | |
| ResNet-50 (ImageNet pre-trained) - ERM [18] | 85.7 | 77.4 | 67.5 | 47.2 | 41.2 | 63.8 | |
| ResNet-50 (ImageNet pre-trained) - SWAD | 88.1 | 79.1 | 70.6 | 50.0 | 46.5 | 66.9 | |
| ResNet-50 (ImageNet pre-trained) - MIRO | 85.4 | 79.0 | 70.5 | 50.4 | 44.3 | 65.9 | |
| ResNet-50 (ImageNet pre-trained) - SMA (ours) | 87.5 | 78.2 | 70.6 | 50.3 | 46 | 66.5 | |
| ResNet-50 (ImageNet pre-trained) - EoA (ours) | 88.6 | 79.1 | 72.5 | 52.3 | 47.4 | 68.0 | |
| ResNeXt-50 32x4d - ERM (our runs) | 88.9 | 79.0 | 70.9 | 51.4 | 48.1 | 67.7 | |
| ResNeXt-50 32x4d - Ensemble (our runs) | 91.2 | 80.3 | 77.8 | 53.5 | 52.8 | 71.1 | |
| ResNeXt-50 32x4d - SMA (ours) | 92.7 | 79.7 | 78.6 | 53.3 | 53.5 | 71.6 | |
| ResNeXt-50 32x4d - EoA (ours) | 93.2 | 80.4 | 80.2 | 55.2 | 54.6 | 72.7 | |
| RegNetY-16GF - ERM (our runs) | 92 | 78.6 | 73.8 | 55.6 | 53.1 | 70.6 | |
| RegNetY-16GF - Ensemble (our runs) | 95.1 | 80.6 | 80.5 | 59.5 | 57.8 | 74.7 | |
| RegNetY-16GF - SMA (ours) | 95.5 | 80.7 | 82.0 | 59.7 | 60.0 | 75.6 | |
| RegNetY-16GF - EoA (ours) | 95.8 | 81.1 | 83.9 | 61.1 | 60.9 | 76.6 |
- SMA는 인도메인 검증 정확도와 아웃도메인 테스트 정확도 간의 순위 상관을 향상시켜 신뢰할 수 있는 모델 선택을 돕는다.
- EoA는 여러 데이터셋과 백본 아키텍처에서 비평균 모델의 앙상블보다 일관되게 더 나은 성능을 보인다.
- ImageNet으로 사전 학습된 ResNet-50에서 DomainBed의 경우 EoA가 평균 정확도 68.0으로 ERM 64.0보다 높아 SWAD보다 1.1pp 앞선다.
- ResNeXt-50 32x4d에서 EoA는 72.7 평균으로 ERM 67.7보다 더 큰 이득을 보이며 더 크고 사전학습된 모델에서 이득이 커짐을 보여준다.
- RegNetY-16GF에서 EoA는 76.6 평균으로 ERM 70.6보다 크게 향상되며 모델 크기와 사전학습 규모가 커질수록 개선이 뚜렷함을 시사한다.
- 이론적 프레이밍은 DG에서의 이득이 편향 주도형 앙상블 결과에 기인함을 연결시키며, 평탄한 최소값 설명과 대조된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.