Skip to main content
QUICK REVIEW

[论文解读] In Search of Lost Domain Generalization

Ishaan Gulrajani, David López-Paz|arXiv (Cornell University)|Jul 2, 2020
Domain Adaptation and Few-Shot Learning参考文献 84被引用 85
一句话总结

本文认为领域泛化方法必须包含一个模型选择策略,并且在实现细致、基线强大的前提下,经验风险最小化(ERM)在多个数据集上可以达到或超过最先进的方法。它还引入 DomainBed,这是一个用于公平、可重复评估 DG 方法的 PyTorch 测试平台。

ABSTRACT

The goal of domain generalization algorithms is to predict well on distributions different from those seen during training. While a myriad of domain generalization algorithms exist, inconsistencies in experimental conditions -- datasets, architectures, and model selection criteria -- render fair and realistic comparisons difficult. In this paper, we are interested in understanding how useful domain generalization algorithms are in realistic settings. As a first step, we realize that model selection is non-trivial for domain generalization tasks. Contrary to prior work, we argue that domain generalization algorithms without a model selection strategy should be regarded as incomplete. Next, we implement DomainBed, a testbed for domain generalization including seven multi-domain datasets, nine baseline algorithms, and three model selection criteria. We conduct extensive experiments using DomainBed and find that, when carefully implemented, empirical risk minimization shows state-of-the-art performance across all datasets. Looking forward, we hope that the release of DomainBed, along with contributions from fellow researchers, will streamline reproducible and rigorous research in domain generalization.

研究动机与目标

  • 评估在不同数据集、模型和选择标准下领域泛化评估的现实性。
  • 探究模型选择策略如何影响 DG 方法的性能。
  • 提供一个标准化、可重复使用的 DG 实验测试平台,以提升可重复性。
  • 在领域泛化研究中推动更强的基线和公平比较。

提出的方法

  • 讨论并阐明领域泛化中模型选择的挑战。
  • 在 DomainBed 上实现并比较七个多域数据集上的九个 DG 算法。
  • 评估三种模型选择标准(在训练域上验证、留一域、以及测试域 oracle)。
  • 对每个算法/数据配置进行 20 次随机超参数搜索,进行三次独立运行。
  • 以严格的多次平均和标准误来报告结果。
  • 发布 DomainBed,以简化添加新算法/数据集并实现端到端实验。

实验结果

研究问题

  • RQ1不同的模型选择策略如何影响领域泛化的性能?
  • RQ2在现实、标准化的评估条件下,DG 算法是否始终优于强力的 ERM 基线?
  • RQ3标准化的测试平台(DomainBed)是否能够实现更公平、可重复的领域泛化研究?

主要发现

算法CMNISTRMNISTVLCSPACSOffice-HomeTerraIncDomainNet平均值
ERM52.0 ± 0.198.0 ± 0.077.4 ± 0.385.7 ± 0.567.5 ± 0.547.2 ± 0.441.2 ± 0.267.0
IRM51.8 ± 0.197.9 ± 0.078.1 ± 0.084.4 ± 1.166.6 ± 1.047.9 ± 0.735.7 ± 1.966.0
DRO52.0 ± 0.198.1 ± 0.077.2 ± 0.684.1 ± 0.466.9 ± 0.347.0 ± 0.333.7 ± 0.265.5
Mixup51.9 ± 0.198.1 ± 0.077.7 ± 0.484.3 ± 0.569.0 ± 0.148.9 ± 0.839.6 ± 0.167.1
MLDG51.6 ± 0.198.0 ± 0.077.1 ± 0.484.8 ± 0.668.2 ± 0.146.1 ± 0.841.8 ± 0.466.8
CORAL51.7 ± 0.198.1 ± 0.177.7 ± 0.586.0 ± 0.268.6 ± 0.446.4 ± 0.841.8 ± 0.267.2
MMD51.8 ± 0.198.1 ± 0.076.7 ± 0.985.0 ± 0.267.7 ± 0.149.3 ± 1.439.4 ± 0.866.8
DANN51.5 ± 0.397.9 ± 0.178.7 ± 0.384.6 ± 1.165.4 ± 0.648.4 ± 0.538.4 ± 0.066.4
C-DANN51.9 ± 0.198.0 ± 0.078.2 ± 0.482.8 ± 1.565.6 ± 0.547.6 ± 0.838.9 ± 0.166.1
  • 在使用现代架构、数据增强和仔细的超参数调整时,ERM 在所评估的数据集上达到了最先进的性能。
  • 在数据集和配置条件相同的情况下,没有 DG 算法持续性地比 ERM 优越超过一个小幅度。
  • 模型选择策略显著影响 DG 结果;在训练域上验证通常优于留一域,而 oracle(测试域)选择在改进空间方面仍有潜力。
  • DomainBed 提供了一个可扩展、可重复的框架来运行 DG 实验,添加新算法或数据集成本较低。
  • 更大网络(如 ResNet-50)、更强的数据增强以及充分的超参数搜索共同解释了 ERM 的强劲表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。