Skip to main content
QUICK REVIEW

[论文解读] Image to Image Translation for Domain Adaptation

Zak Murez, Soheil Kolouri|arXiv (Cornell University)|Dec 1, 2017
Domain Adaptation and Few-Shot Learning参考文献 28被引用 25
一句话总结

该论文提出了一种统一的、无监督的域自适应框架,利用无配对图像到图像的转换,在无需目标域标注的情况下,对齐源域和目标域的特征。通过强制实现与域无关的特征提取、循环一致性重建以及对抗性域对齐,该方法在数字分类(MNIST、USPS、SVHN)和语义分割(GTA5 到 Cityscapes)任务上取得了最先进性能,显著减少了真实应用场景中域偏移带来的误差。

ABSTRACT

We propose a general framework for unsupervised domain adaptation, which allows deep neural networks trained on a source domain to be tested on a different target domain without requiring any training annotations in the target domain. This is achieved by adding extra networks and losses that help regularize the features extracted by the backbone encoder network. To this end we propose the novel use of the recently proposed unpaired image-toimage translation framework to constrain the features extracted by the encoder network. Specifically, we require that the features extracted are able to reconstruct the images in both domains. In addition we require that the distribution of features extracted from images in the two domains are indistinguishable. Many recent works can be seen as specific cases of our general framework. We apply our method for domain adaptation between MNIST, USPS, and SVHN datasets, and Amazon, Webcam and DSLR Office datasets in classification tasks, and also between GTA5 and Cityscapes datasets for a segmentation task. We demonstrate state of the art performance on each of these datasets.

研究动机与目标

  • 解决深度学习中的域偏移问题,即在合成数据或源域数据上训练的模型在真实世界目标域上表现不佳,这是由于分布差异所致。
  • 开发一种通用的、无监督的域自适应框架,目标域无需任何标注数据。
  • 在单一架构下统一并泛化现有的域自适应技术,共享特征提取、重建和域对齐组件。
  • 通过利用无配对图像翻译和循环一致性,提升语义分割和图像分类任务的性能。
  • 在多样化数据集上验证该框架的有效性,包括合成到真实图像的转换(如 GTA5 到 Cityscapes)以及跨数据集的数字识别。

提出的方法

  • 该框架使用共享编码器从源域和目标域中提取与域无关的特征,通过对抗性判别器确保特征分布不可区分。
  • 引入特定于域的解码器,从共享特征中重建源域和目标域图像,通过自编码损失强制实现循环一致性。
  • 该方法采用循环一致性损失,确保从源域到目标域再返回的特征转换能保留原始内容,防止模式崩溃。
  • 分类头在源域特征上进行训练,而目标域仅用于特征对齐和重建,不提供监督信号。
  • 训练目标结合了分类损失、重建损失、身份损失和循环一致性损失,通过可学习的超参数平衡各组件。
  • 使用 ADAM 优化器进行训练,编码器与其他组件采用独立的学习率,并采用改进的Wasserstein GAN损失结合梯度惩罚用于图像判别器。

实验结果

研究问题

  • RQ1一个统一的深度学习框架能否在无需目标域任何标注数据的情况下,有效实现无监督域自适应?
  • RQ2如何将图像到图像的转换技术适配于不同数据分布的域之间进行特征对齐?
  • RQ3强制实施循环一致性和与域无关的特征学习在跨域图像分类与分割任务中的泛化能力提升程度如何?
  • RQ4该框架能否在多样化域之间泛化,如合成到真实驾驶场景的转换以及跨数据集的数字识别?
  • RQ5与现有域自适应方法相比,该方法在性能和鲁棒性方面表现如何?

主要发现

  • 所提出的方法在 MNIST、USPS 和 SVHN 数字分类基准上取得了最先进性能,优于以往的无监督域自适应方法。
  • 在 Office-Home 数据集(Amazon、Webcam、DSLR)上,该方法在无目标域标注的情况下实现了更优的跨域图像分类准确率。
  • 在从 GTA5(合成)到 Cityscapes(真实)的语义分割任务中,该方法显著提升了平均交并比(mIoU),有效纠正了道路、人行道和建筑物分割中的大规模错误。
  • 该框架在 GTA5 到 Cityscapes 的分割任务中优于现有方法,尤其在结合 DenseNet 架构时,展现出对复杂真实场景的强大泛化能力。
  • 消融研究显示,身份损失和重建损失在大尺寸图像上已足够,而循环一致性损失计算成本较高,在高分辨率设置下可被省略。
  • 共享解码器权重与对抗性特征对齐的结合,使得跨域的特征表示更加鲁棒且解耦。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。