Skip to main content
QUICK REVIEW

[论文解读] Semantic-aware Grad-GAN for Virtual-to-Real Urban Scene Adaption

Peilun Li, Xiaodan Liang|arXiv (Cornell University)|Jan 5, 2018
Advanced Vision and Imaging参考文献 41被引用 58
一句话总结

介绍 SG-GAN,一种语义感知、梯度引导的 GAN,用于虚拟到真实城市场景的适应,能够保持语义边界并使用语义感知判别器呈现区域特定纹理,从而提升下游的语义分割。

ABSTRACT

Recent advances in vision tasks (e.g., segmentation) highly depend on the availability of large-scale real-world image annotations obtained by cumbersome human labors. Moreover, the perception performance often drops significantly for new scenarios, due to the poor generalization capability of models trained on limited and biased annotations. In this work, we resort to transfer knowledge from automatically rendered scene annotations in virtual-world to facilitate real-world visual tasks. Although virtual-world annotations can be ideally diverse and unlimited, the discrepant data distributions between virtual and real-world make it challenging for knowledge transferring. We thus propose a novel Semantic-aware Grad-GAN (SG-GAN) to perform virtual-to-real domain adaption with the ability of retaining vital semantic information. Beyond the simple holistic color/texture transformation achieved by prior works, SG-GAN successfully personalizes the appearance adaption for each semantic region in order to preserve their key characteristic for better recognition. It presents two main contributions to traditional GANs: 1) a soft gradient-sensitive objective for keeping semantic boundaries; 2) a semantic-aware discriminator for validating the fidelity of personalized adaptions with respect to each semantic region. Qualitative and quantitative experiments demonstrate the superiority of our SG-GAN in scene adaption over state-of-the-art GANs. Further evaluations on semantic segmentation on Cityscapes show using adapted virtual images by SG-GAN dramatically improves segmentation performance than original virtual data. We release our code at https://github.com/Peilun-Li/SG-GAN.

研究动机与目标

  • 通过将自动生成的虚拟世界标注中的知识转移到真实世界感知任务,来降低标注负担。
  • 在跨语义区域(例如道路、汽车)调整外观以接近真实世界分布的同时,保持语义信息。
  • 引入一个软梯度敏感目标,以在自适应过程中保持语义边界。
  • 引入一个语义感知判别器,按语义区域评估逼真度,以避免全局一致的变化。

提出的方法

  • 提出 SG-GAN,具备用于虚拟到真实和真实到虚拟自适应的两个生成器,以及两个语义感知判别器。
  • 结合对抗损失、循环一致性损失,以及一种新颖的软梯度敏感损失,使图像梯度与语义边界对齐。
  • 定义 L_grad 以聚焦于边界一致的梯度差异,从而实现区域特定的纹理变化。
  • 开发 SD_V 和 SD_R 来强制语义区域感知的真实感,使用单热编码语义掩码来调制判别器特征。
  • 在非配对的 GTA-V 和 Cityscapes 数据上进行训练,存在 SG-GAN-2K 和 SG-GAN-25K 变体以研究数据规模的影响。
  • 在 Cityscapes 分割上进行评估,以展示使用经过自适应的虚拟数据在性能上的提升。

实验结果

研究问题

  • RQ1虚拟世界的带标签数据是否能够有效转换为真实世界分布,同时不丢失语义完整性?
  • RQ2梯度敏感目标与语义感知判别器是否在虚拟到真实自适应过程中改善边界保持和区域特定纹理呈现?
  • RQ3增加虚拟世界训练数据在多大程度上改善自适应和下游分割性能?

主要发现

  • 与基线相比,SG-GAN 在语义边界更清晰,区域特定纹理更细致。
  • A/B 测试表明 SG-GAN 在真实感判断方面优于 CycleGAN、DualGAN、SimGAN 和 BiGAN。
  • 使用 SG-GAN 将 GTA-V 数据进行适应,显著提升 Cityscapes 语义分割效果,相较于使用原始虚拟数据。
  • 语义感知判别器能够实现区域特定的色调和纹理改变(例如交通信号灯、天空),这是全局判别器所无法捕捉的。
  • 将虚拟数据从 2K 增加到 25K 提供了额外的提升,但增益在现实感和分割指标上呈现边际递减。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。