[논문 리뷰] In Search of Lost Domain Generalization
본 논문은 도메인 일반화 방법이 모델 선택 전략을 포함해야 한다고 주장하며, 신중한 구현과 강력한 베이스라인을 통해 다수의 데이터셋에서 경험적 위험 최소화(ERM)가 최첨단에 근접하거나 이를 능가함을 보여준다. 또한 DG 방법의 공정하고 재현 가능한 평가를 위한 PyTorch 테스트베드인 DomainBed를 소개한다.
The goal of domain generalization algorithms is to predict well on distributions different from those seen during training. While a myriad of domain generalization algorithms exist, inconsistencies in experimental conditions -- datasets, architectures, and model selection criteria -- render fair and realistic comparisons difficult. In this paper, we are interested in understanding how useful domain generalization algorithms are in realistic settings. As a first step, we realize that model selection is non-trivial for domain generalization tasks. Contrary to prior work, we argue that domain generalization algorithms without a model selection strategy should be regarded as incomplete. Next, we implement DomainBed, a testbed for domain generalization including seven multi-domain datasets, nine baseline algorithms, and three model selection criteria. We conduct extensive experiments using DomainBed and find that, when carefully implemented, empirical risk minimization shows state-of-the-art performance across all datasets. Looking forward, we hope that the release of DomainBed, along with contributions from fellow researchers, will streamline reproducible and rigorous research in domain generalization.
연구 동기 및 목표
- 다양한 데이터셋, 모델, 선택 기준 하에서 도메인 일반화 평가의 현실성을 검토한다.
- 모델 선택 전략이 DG 방법의 성능에 어떤 영향을 미치는지 조사한다.
- 도메인 일반화 실험을 위한 표준화되고 재사용 가능한 테스트베드를 제공하여 재현성을 향상시킨다.
- 도메인 일반화 연구에서 더 강력한 베이스라인 및 공정한 비교를 촉진한다.
제안 방법
- 도메인 일반화에서 모델 선택의 도전 과제를 검토하고 명시한다.
- DomainBed를 사용하여 일곱 개의 다중 도메인 데이터셋에서 아홉 가지 DG 알고리즘을 구현하고 비교한다.
- 세 가지 모델 선택 기준(학습 도메인 검증, 도메인 한정 잃고 검증, 테스트 도메인 오라클)을 평가한다.
- 알고리즘/데이터셋 구성당 무작위 하이퍼파라미터 탐색 20회, 세 차례 독립 실행으로 수행한다.
- 실험 결과를 각 실행에 대해 엄격하게 평균화하고 표준오차를 제공한다.
- 새로운 알고리즘 및 데이터셋 추가를 간소화하고 엔드-투-엔드 실험을 가능하게 하도록 DomainBed를 공개한다.
실험 결과
연구 질문
- RQ1다양한 모델 선택 전략이 도메인 일반화 성능에 미치는 영향은 무엇인가?
- RQ2DG 알고리즘이 현실적이고 표준화된 평가 조건 하에서 강력한 ERM 베이스라인을 일관되게 능가하는가?
- RQ3표준화된 테스트베드(DomainBed)가 더 공정하고 재현 가능한 도메인 일반화 연구를 가능하게 하는가?
주요 결과
| 알고리즘 | CMNIST | RMNIST | VLCS | PACS | Office-Home | TerraInc | DomainNet | 평균 |
|---|---|---|---|---|---|---|---|---|
| ERM | 52.0 ± 0.1 | 98.0 ± 0.0 | 77.4 ± 0.3 | 85.7 ± 0.5 | 67.5 ± 0.5 | 47.2 ± 0.4 | 41.2 ± 0.2 | 67.0 |
| IRM | 51.8 ± 0.1 | 97.9 ± 0.0 | 78.1 ± 0.0 | 84.4 ± 1.1 | 66.6 ± 1.0 | 47.9 ± 0.7 | 35.7 ± 1.9 | 66.0 |
| DRO | 52.0 ± 0.1 | 98.1 ± 0.0 | 77.2 ± 0.6 | 84.1 ± 0.4 | 66.9 ± 0.3 | 47.0 ± 0.3 | 33.7 ± 0.2 | 65.5 |
| Mixup | 51.9 ± 0.1 | 98.1 ± 0.0 | 77.7 ± 0.4 | 84.3 ± 0.5 | 69.0 ± 0.1 | 48.9 ± 0.8 | 39.6 ± 0.1 | 67.1 |
| MLDG | 51.6 ± 0.1 | 98.0 ± 0.0 | 77.1 ± 0.4 | 84.8 ± 0.6 | 68.2 ± 0.1 | 46.1 ± 0.8 | 41.8 ± 0.4 | 66.8 |
| CORAL | 51.7 ± 0.1 | 98.1 ± 0.1 | 77.7 ± 0.5 | 86.0 ± 0.2 | 68.6 ± 0.4 | 46.4 ± 0.8 | 41.8 ± 0.2 | 67.2 |
| MMD | 51.8 ± 0.1 | 98.1 ± 0.0 | 76.7 ± 0.9 | 85.0 ± 0.2 | 67.7 ± 0.1 | 49.3 ± 1.4 | 39.4 ± 0.8 | 66.8 |
| DANN | 51.5 ± 0.3 | 97.9 ± 0.1 | 78.7 ± 0.3 | 84.6 ± 1.1 | 65.4 ± 0.6 | 48.4 ± 0.5 | 38.4 ± 0.0 | 66.4 |
| C-DANN | 51.9 ± 0.1 | 98.0 ± 0.0 | 78.2 ± 0.4 | 82.8 ± 1.5 | 65.6 ± 0.5 | 47.6 ± 0.8 | 38.9 ± 0.1 | 66.1 |
- ERM은 현대 아키텍처, 데이터 증강 및 세심한 하이퍼파라미터 조정으로 평가된 데이터셋에서 최첨단 성능에 도달한다.
- 데이터셋과 구성 간 조건이 동일할 때 어떤 DG 알고리즘도 ERM을 더 큰 차이로 능가하지 못한다.
- 모델 선택 전략은 DG 결과에 큰 영향을 미치며, 학습 도메인 검증이 일반적으로 도메인 하나를 남겨두는 선택보다 더 우수한 경향이 있으며, 오라클(테스트 도메인) 선택은 개선 여지가 있음을 시사한다.
- DomainBed는 DG 실험을 실행하기 위한 확장 가능하고 재현 가능한 프레임워크를 제공하며, 새로운 알고리즘이나 데이터셋 추가가 경량화된다.
- 더 큰 네트워크(ResNet-50), 강력한 데이터 증강 및 철저한 하이퍼파라미터 탐색의 조합이 ERM의 강력한 성능을 크게 설명한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.