Skip to main content
QUICK REVIEW

[论文解读] Constructing Self-motivated Pyramid Curriculums for Cross-Domain Semantic Segmentation: A Non-Adversarial Approach

Qing Lian, Fengmao Lv|arXiv (Cornell University)|Aug 26, 2019
Domain Adaptation and Few-Shot Learning参考文献 41被引用 41
一句话总结

PyCDA 引入一个自我驱动的金字塔课程用于无监督领域适应在语义分割中,结合自训练和课程概念,超越对抗方法且无需额外判别器。

ABSTRACT

We propose a new approach, called self-motivated pyramid curriculum domain adaptation (PyCDA), to facilitate the adaptation of semantic segmentation neural networks from synthetic source domains to real target domains. Our approach draws on an insight connecting two existing works: curriculum domain adaptation and self-training. Inspired by the former, PyCDA constructs a pyramid curriculum which contains various properties about the target domain. Those properties are mainly about the desired label distributions over the target domain images, image regions, and pixels. By enforcing the segmentation neural network to observe those properties, we can improve the network's generalization capability to the target domain. Motivated by the self-training, we infer this pyramid of properties by resorting to the semantic segmentation network itself. Unlike prior work, we do not need to maintain any additional models (e.g., logistic regression or discriminator networks) or to solve minmax problems which are often difficult to optimize. We report state-of-the-art results for the adaptation from both GTAV and SYNTHIA to Cityscapes, two popular settings in unsupervised domain adaptation for semantic segmentation.

研究动机与目标

  • 在从合成图像迁移到真实图像时,推动跨域语义分割的改进。
  • 开发一个训练框架,在无需额外模型的情况下利用目标域属性。
  • 引入一个基于目标域图像区域和像素的金字塔课程,该课程来自网络本身。
  • 在保持竞争性性能的同时消除对抗性最小-最大优化的需求。

提出的方法

  • 为每个目标图像构建一个金字塔课程,包含:全图(顶部)、像素方块(中部)和像素(底部)。
  • 以自训练方式从分割网络自身推断目标域属性(标签分布)。
  • 为提高效率,将成本高的超像素替换为小的重叠4x4或8x8像素方块。
  • 对目标图像的标签分布和伪标签使用交叉熵损失来更新网络,避免额外的判别器。
  • 在统一目标(Eq. 5)中,将目标图像级分布与区域级和像素级伪标签监督结合起来。
  • 在需要时,利用源图像的均值分布来表示目标图像分布,并应用带有调优超参数的基于 SGD 的优化。

实验结果

研究问题

  • RQ1将目标域标签分布与像素级伪标签结合的自我驱动金字塔课程,是否能够匹配或超过对抗性领域自适应方法?
  • RQ2用像素方块替代传统超像素是否在降低计算量的同时保持性能?
  • RQ3将自训练与课程自适应统一在 GTAV/Cityscapes 与 SYNTHIA/Cityscapes 转移上的性能有何影响?
  • RQ4在学习信号和泛化方面,使用金字塔层级(顶部图像、中部方块、底部像素)的影响是什么?
  • RQ5这种非对抗性方法是否能够在语义分割领域自适应中超越现有的 CDA 或 ST 基线?

主要发现

  • 在非对抗方法中,PyCDA 在从 GTAV 和 SYNTHIA 到 Cityscapes 的无监督领域自适应中达到最新的结果。
  • 用 4x4/8x8 像素方块替代超像素在降低计算量的同时获得相当的性能。
  • 联合利用顶层图像分布和中层区域分布以及底层伪标签,相较于单独使用 CDA 或 ST,提供了更优的结果。
  • 该方法在不同骨干网络上都表现良好,並超过了一些使用对抗训练的竞争方法。
  • 定性结果显示在主导类别(如道路、建筑、植被)的分割上有所改进,并在某些设置中更好地处理了较小的对象。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。