[论文解读] Unsupervised Pixel-Level Domain Adaptation with Generative Adversarial Networks
本文提出PixelDA,一种基于生成对抗网络(GAN)的无监督域自适应方法,能够以像素级方式将合成源域图像转换为看起来像真实目标域图像,且无需成对数据。该方法在物体分类和姿态估计任务上达到最先进性能,在具有挑战性的设置下将姿态估计误差降低超过50%,并实现了对未见物体类别的稳定、可泛化的域自适应。
Collecting well-annotated image datasets to train modern machine learning algorithms is prohibitively expensive for many tasks. One appealing alternative is rendering synthetic data where ground-truth annotations are generated automatically. Unfortunately, models trained purely on rendered images often fail to generalize to real images. To address this shortcoming, prior work introduced unsupervised domain adaptation algorithms that attempt to map representations between the two domains or learn to extract features that are domain-invariant. In this work, we present a new approach that learns, in an unsupervised manner, a transformation in the pixel space from one domain to the other. Our generative adversarial network (GAN)-based method adapts source-domain images to appear as if drawn from the target domain. Our approach not only produces plausible samples, but also outperforms the state-of-the-art on a number of unsupervised domain adaptation scenarios by large margins. Finally, we demonstrate that the adaptation process generalizes to object classes unseen during training.
研究动机与目标
- 解决在合成数据上训练的模型难以泛化到真实图像的域偏移问题。
- 开发一种无需标注目标数据或成对源-目标图像的无监督像素级域自适应方法。
- 将域自适应与特定任务模型解耦,以提升灵活性和可重用性。
- 通过特定任务损失和内容相似性损失,提升对抗性域自适应中的训练稳定性和泛化能力。
- 实现在训练期间未见物体类别的零样本泛化能力。
提出的方法
- 训练一个条件生成对抗网络,仅使用未配对的数据将源域(如合成)图像映射到目标域(如真实)图像。
- 生成器通过对抗损失最小化与域判别器的损失,同时通过基于特征重建的内容相似性损失保留内容。
- 在真实源图像和生成的目标域图像上联合训练特定任务分类器,以稳定训练并提升性能。
- 内容相似性损失确保生成图像保留输入源图像的语义内容,防止模式崩溃。
- 通过对抗损失、特定任务分类损失和内容重建损失的组合,端到端训练模型。
- 域自适应过程与特定任务分类器解耦,使域适配器可复用于不同下游任务。
实验结果
研究问题
- RQ1基于GAN的模型能否在无需成对源-目标图像的情况下,有效实现无监督像素级域自适应?
- RQ2与最先进无监督域自适应技术相比,所提方法是否在分类和姿态估计等下游任务上表现更优?
- RQ3模型能否泛化到训练期间未见的物体类别,实现零样本自适应?
- RQ4引入特定任务损失和内容相似性损失如何影响训练稳定性和性能方差?
- RQ5在仅有少量标注目标样本的半监督设置下,该模型是否能有效应用?
主要发现
- 在'Synthetic Cropped Linemod to Cropped Linemod'基准上,PixelDA实现99.93%的分类准确率和13.31°的平均角度误差,显著优于先前方法。
- 在具有挑战性的'Synthetic Cropped Linemod to Cropped Linemod'场景中,与之前最先进方法相比,该模型将姿态估计误差降低了50%以上。
- 模型可泛化到未见物体类别,在5个此前未见的Linemod物体上实现98.98%的分类准确率,证明了零样本迁移能力。
- 引入特定任务损失和内容相似性损失后,分类准确率在不同随机初始化下的性能标准差从23.26%降至1.60%,显著提升了训练稳定性。
- 在仅使用1,000个标注目标样本的半监督设置下,PixelDA实现99.93%的准确率和13.31°的平均角度误差,超越了在合成数据和标注目标数据上联合训练的基线方法。
- 模型生成的适配图像在视觉上合理,与真实目标域图像(如真实RGBD样本)在定性比较中高度相似。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。