QUICK REVIEW

[论文解读] Learning to Generate Novel Domains for Domain Generalization

Kaiyang Zhou, Yongxin Yang|arXiv (Cornell University)|Jul 7, 2020

Domain Adaptation and Few-Shot Learning参考文献 64被引用 25

一句话总结

该论文提出L2A-OT，一种领域泛化方法，通过利用基于最优传输的差异最大化，训练一个条件生成器从源数据合成多样化、伪新领域的数据，从而提升模型的鲁棒性。该方法通过引入循环一致性损失和分类损失，在保持语义一致性的前提下增加领域多样性，从而在PACS、Office-Home和Digits-DG等四个基准数据集上超越了当前最先进方法。

ABSTRACT

This paper focuses on domain generalization (DG), the task of learning from multiple source domains a model that generalizes well to unseen domains. A main challenge for DG is that the available source domains often exhibit limited diversity, hampering the model's ability to learn to generalize. We therefore employ a data generator to synthesize data from pseudo-novel domains to augment the source domains. This explicitly increases the diversity of available training domains and leads to a more generalizable model. To train the generator, we model the distribution divergence between source and synthesized pseudo-novel domains using optimal transport, and maximize the divergence. To ensure that semantics are preserved in the synthesized data, we further impose cycle-consistency and classification losses on the generator. Our method, L2A-OT (Learning to Augment by Optimal Transport) outperforms current state-of-the-art DG methods on four benchmark datasets.

研究动机与目标

为解决现有领域泛化（DG）方法中领域多样性有限的问题，该问题限制了模型在未见领域上的泛化能力。
通过合成数据显式增加训练领域多样性，以克服对已见源领域的过拟合风险。
开发一个生成器，能够在无需目标领域数据的情况下，生成语义一致且分布不同的伪新领域。
通过循环一致性损失和分类损失，确保生成图像在语义和结构上保持真实性。

提出的方法

训练一个条件生成器网络，将源领域图像映射到与源分布具有最大最优传输（OT）距离的伪新领域。
生成器的目标是最大化源领域与生成领域之间的基于OT的领域差异，以确保分布上的新颖性。
应用循环一致性损失，通过领域映射的循环过程，保持跨领域转换时的结构一致性。
在生成图像上施加分类损失，以维持语义保真度，确保其仍能被识别为同一类别。
使用结合OT差异、循环一致性损失和分类项的复合损失，端到端训练生成器。
最终模型在真实源领域与合成伪新领域数据的组合上进行训练，以提升泛化能力。

实验结果

研究问题

RQ1从源数据合成伪新领域是否能提升领域泛化任务中的泛化性能？
RQ2在源领域与生成领域之间最大化基于最优传输的领域差异，是否比领域对齐能带来更好的泛化效果？
RQ3循环一致性损失与分类损失的引入，如何影响生成图像的质量与在DG任务中的实用性？
RQ4该方法的性能是否对生成领域数量和源领域选择具有鲁棒性？
RQ5生成领域在分布空间和特征空间中，与真实源领域及其他生成领域相比如何？

主要发现

L2A-OT在四个基准数据集（PACS、Office-Home、Digits-DG以及跨域行人重识别）上达到最先进性能。
在包含三个源领域的Digits-DG数据集中，L2A-OT达到62.5%的准确率，优于原始基线模型（57.1%）及其他SOTA方法。
该方法对生成领域数量具有鲁棒性，当$K_n = K_s$时性能稳定，表明$K_n = K_s$是一个强而可靠的默认选择。
t-SNE可视化结果证实，生成领域与源领域在特征空间中明显分离，且形成独立的聚类。
L2A-OT生成的图像与源领域相比表现出显著的分布差异——例如纹理、颜色和背景发生改变——但语义内容得以保留。
与CrossGrad相比，L2A-OT生成的图像展现出更显著的领域偏移，经t-SNE和视觉检查确认，从而带来更优的泛化性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。