[论文解读] Learning to Generate Novel Domains for Domain Generalization
该论文提出L2A-OT,一种领域泛化方法,通过利用基于最优传输的差异最大化,训练一个条件生成器从源数据合成多样化、伪新领域的数据,从而提升模型的鲁棒性。该方法通过引入循环一致性损失和分类损失,在保持语义一致性的前提下增加领域多样性,从而在PACS、Office-Home和Digits-DG等四个基准数据集上超越了当前最先进方法。
This paper focuses on domain generalization (DG), the task of learning from multiple source domains a model that generalizes well to unseen domains. A main challenge for DG is that the available source domains often exhibit limited diversity, hampering the model's ability to learn to generalize. We therefore employ a data generator to synthesize data from pseudo-novel domains to augment the source domains. This explicitly increases the diversity of available training domains and leads to a more generalizable model. To train the generator, we model the distribution divergence between source and synthesized pseudo-novel domains using optimal transport, and maximize the divergence. To ensure that semantics are preserved in the synthesized data, we further impose cycle-consistency and classification losses on the generator. Our method, L2A-OT (Learning to Augment by Optimal Transport) outperforms current state-of-the-art DG methods on four benchmark datasets.
研究动机与目标
- 为解决现有领域泛化(DG)方法中领域多样性有限的问题,该问题限制了模型在未见领域上的泛化能力。
- 通过合成数据显式增加训练领域多样性,以克服对已见源领域的过拟合风险。
- 开发一个生成器,能够在无需目标领域数据的情况下,生成语义一致且分布不同的伪新领域。
- 通过循环一致性损失和分类损失,确保生成图像在语义和结构上保持真实性。
提出的方法
- 训练一个条件生成器网络,将源领域图像映射到与源分布具有最大最优传输(OT)距离的伪新领域。
- 生成器的目标是最大化源领域与生成领域之间的基于OT的领域差异,以确保分布上的新颖性。
- 应用循环一致性损失,通过领域映射的循环过程,保持跨领域转换时的结构一致性。
- 在生成图像上施加分类损失,以维持语义保真度,确保其仍能被识别为同一类别。
- 使用结合OT差异、循环一致性损失和分类项的复合损失,端到端训练生成器。
- 最终模型在真实源领域与合成伪新领域数据的组合上进行训练,以提升泛化能力。
实验结果
研究问题
- RQ1从源数据合成伪新领域是否能提升领域泛化任务中的泛化性能?
- RQ2在源领域与生成领域之间最大化基于最优传输的领域差异,是否比领域对齐能带来更好的泛化效果?
- RQ3循环一致性损失与分类损失的引入,如何影响生成图像的质量与在DG任务中的实用性?
- RQ4该方法的性能是否对生成领域数量和源领域选择具有鲁棒性?
- RQ5生成领域在分布空间和特征空间中,与真实源领域及其他生成领域相比如何?
主要发现
- L2A-OT在四个基准数据集(PACS、Office-Home、Digits-DG以及跨域行人重识别)上达到最先进性能。
- 在包含三个源领域的Digits-DG数据集中,L2A-OT达到62.5%的准确率,优于原始基线模型(57.1%)及其他SOTA方法。
- 该方法对生成领域数量具有鲁棒性,当$K_n = K_s$时性能稳定,表明$K_n = K_s$是一个强而可靠的默认选择。
- t-SNE可视化结果证实,生成领域与源领域在特征空间中明显分离,且形成独立的聚类。
- L2A-OT生成的图像与源领域相比表现出显著的分布差异——例如纹理、颜色和背景发生改变——但语义内容得以保留。
- 与CrossGrad相比,L2A-OT生成的图像展现出更显著的领域偏移,经t-SNE和视觉检查确认,从而带来更优的泛化性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。