QUICK REVIEW

[论文解读] SPIGAN: Privileged Adversarial Learning from Simulation

Kuan-Hui Lee, Germán Ros|arXiv (Cornell University)|Oct 9, 2018

Domain Adaptation and Few-Shot Learning参考文献 59被引用 27

一句话总结

SPIGAN 提出了一种新颖的无监督域自适应框架，通过生成对抗网络利用模拟器中的特权信息（PI），特别是 z 缓冲深度，以弥合语义分割中的模拟到真实域差距。通过联合训练生成器、判别器、任务网络和特权网络，SPIGAN 在 Cityscapes 和 Vistas 等真实世界数据集上提升了性能，在 'human' 类别的 IoU 上最高提升了 +15%，并优于当前最先进方法。

ABSTRACT

Deep Learning for Computer Vision depends mainly on the source of supervision.Photo-realistic simulators can generate large-scale automatically labeled syntheticdata, but introduce a domain gap negatively impacting performance. We propose anew unsupervised domain adaptation algorithm, called SPIGAN, relying on Sim-ulator Privileged Information (PI) and Generative Adversarial Networks (GAN).We use internal data from the simulator as PI during the training of a target tasknetwork. We experimentally evaluate our approach on semantic segmentation. Wetrain the networks on real-world Cityscapes and Vistas datasets, using only unla-beled real-world images and synthetic labeled data with z-buffer (depth) PI fromthe SYNTHIA dataset. Our method improves over no adaptation and state-of-the-art unsupervised domain adaptation techniques.

研究动机与目标

解决深度学习在计算机视觉中合成模拟数据与真实世界图像之间的巨大域差距问题。
实现在目标域无需真实世界标注的情况下进行无监督域自适应。
利用模拟器内部生成的特权信息（如 z 缓冲深度）作为训练过程中的正则化项。
提升域自适应中的泛化能力并减少负迁移，尤其是在视觉差异较大的真实世界数据集上。
开发一个统一框架，联合优化图像翻译、任务预测和特权信息建模。

提出的方法

训练一个生成器网络，将模拟器中的合成图像（如 SYNTHIA）翻译为更接近真实世界图像（如 Cityscapes 或 Vistas）的外观。
训练一个判别器网络，以区分真实图像与生成图像，从而强制实现像素级分布对齐。
任务网络从经过适应的图像中预测语义分割标签，并与生成器和判别器端到端联合训练。
特权网络在合成图像和适应后的图像上进行训练，以预测模拟器特有的 PI（如 z 缓冲深度），作为辅助任务和正则化项。
通过对抗损失、循环一致性损失和 PI 预测损失联合训练模型，PI 引导生成器保持结构一致性。
框架使用未配对的真实图像与合成图像，训练过程中不使用任何真实世界的标签。

实验结果

研究问题

RQ1来自模拟器的特权信息能否提升无监督域自适应在语义分割中的性能？
RQ2将深度（z 缓冲）作为 PI 引入后，对域自适应模型的性能和鲁棒性有何影响？
RQ3在从合成数据到真实世界数据的域自适应过程中，PI 的使用是否能减少负迁移，尤其是在视觉差异较大的数据集上？
RQ4SPIGAN 在分割精度和域差距减少方面与当前最先进无监督域自适应方法相比表现如何？
RQ5PI 在提升对 'human' 或 'vehicle' 等挑战性类别泛化能力方面的作用有多大？

主要发现

在 Cityscapes 数据集上，SPIGAN 将 'human' 类别的平均 IoU 提升了 +15%，该类别在分割任务中尤为具有挑战性。
在 Vistas 数据集上，SPIGAN 相较于源模型实现了 +4.3% 的平均 IoU 提升，证明了其在视觉差异较大的真实世界数据上的有效性。
SPIGAN-no-PI 在 Vistas 上的表现比源模型差 13%，表明在缺乏 PI 的情况下，由于域差距过大，出现了负迁移现象。
在 SPIGAN-no-PI 情况下，80% 的评估图像 IoU 降低，而在 SPIGAN 情况下仅 42% 的图像 IoU 降低，表明 PI 在泛化中起着关键作用。
定性结果表明，SPIGAN 生成的图像在复杂环境（如 Vistas）中更具结构一致性且更符合场景结构，显著减少了无 PI 方法中常见的伪影。
该方法在 Cityscapes 和 Vistas 上均优于当前最先进的无监督域自适应技术，证实了其在不同域偏移数据集上的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。