Skip to main content
QUICK REVIEW

[论文解读] No More Discrimination: Cross City Adaptation of Road Scene Segmenters

Yi‐Hsin Chen, Wei-Yu Chen|arXiv (Cornell University)|Apr 27, 2017
Advanced Neural Network Applications参考文献 37被引用 23
一句话总结

该论文提出了一种用于跨城市道路场景语义分割的无监督域自适应框架,结合领域对抗学习与从 Google Street View 的时间机器功能中提取的静态物体先验。通过利用不同时期的无标注图像推断静态场景结构,并实施联合全局与类别特定的域对齐,该方法在无需任何人工标注的情况下,使未见城市中的 mIoU 提升高达 4.1%,优于需要标注数据的最先进方法。

ABSTRACT

Despite the recent success of deep-learning based semantic segmentation, deploying a pre-trained road scene segmenter to a city whose images are not presented in the training set would not achieve satisfactory performance due to dataset biases. Instead of collecting a large number of annotated images of each city of interest to train or refine the segmenter, we propose an unsupervised learning approach to adapt road scene segmenters across different cities. By utilizing Google Street View and its time-machine feature, we can collect unannotated images for each road scene at different times, so that the associated static-object priors can be extracted accordingly. By advancing a joint global and class-specific domain adversarial learning framework, adaptation of pre-trained segmenters to that city can be achieved without the need of any user annotation or interaction. We show that our method improves the performance of semantic segmentation in multiple cities across continents, while it performs favorably against state-of-the-art approaches requiring annotated training data.

研究动机与目标

  • 解决在将基于某一城市训练的模型部署到视觉特征不同的另一城市时,道路场景分割中的域偏移问题。
  • 通过实现无监督适应,消除目标城市中昂贵的人工标注数据需求。
  • 仅使用无标注图像与时间一致性,在多样化城市环境中提升分割性能。
  • 开发一种联合执行全局与类别级域对齐的框架,以实现稳健的域自适应。
  • 从无标注、时间对齐的街景图像中无监督地提取静态物体先验。

提出的方法

  • 利用具备时间机器功能的 Google Street View 收集来自同一城市位置在不同时期的无标注、时间同步图像。
  • 通过识别在延时图像中持续出现的物体(如标识牌、建筑物)来提取静态物体先验,作为域对齐的弱监督信号。
  • 采用联合全局与类别特定的领域对抗学习框架,对齐源域(如 Cityscapes)与目标域(如罗马、台北)之间的特征分布。
  • 利用预训练的源模型为目标域图像生成“软”伪标签,并通过类别特定的适应过程优化伪标签以减少域判别性。
  • 将静态物体先验整合到对抗训练过程中,以指导特征学习并提升泛化能力。
  • 采用梯度反转的对抗训练策略,以最小化域差异,同时保持语义一致性。

实验结果

研究问题

  • RQ1在无任何标注数据的情况下,无监督域自适应能否显著减少将预训练分割器部署到新城市时的性能下降?
  • RQ2从延时街景图像中提取的静态物体先验在提升跨城市分割性能方面的有效性如何?
  • RQ3联合全局与类别级域对齐是否优于仅使用全局对齐来缓解域偏移?
  • RQ4在大规模域偏移场景下(如从合成数据集 SYNTHIA 到真实世界数据集 Cityscapes),该方法表现如何?
  • RQ5所提出的方法能否在无需任何人工标注的情况下,实现与完全监督微调相当的性能?

主要发现

  • 与预训练模型相比,该方法在四个城市(罗马、里约、台北、东京)上实现了平均 4.1% 的 mIoU 提升,性能下降幅度最高减少 30%。
  • 仅全局域对齐贡献了 2.6% 的 mIoU 提升,类别级对齐带来 0.9% 的 mIoU 提升,而静态物体先验额外提供了 0.6% 的 mIoU 改进。
  • t-SNE 可视化结果表明,从预训练模型到最终适配模型,域偏移逐步减小,验证了联合对齐框架的有效性。
  • 在 SYNTHIA 到 Cityscapes 的迁移任务中(此时无法提取静态物体先验),该方法仍分别从全局对齐与类别级对齐中获得了 3.1% 和 1.9% 的 mIoU 提升。
  • 该方法优于需要标注训练数据的最先进方法,证明其在多样化域偏移下具有强大的泛化能力与鲁棒性。
  • 消融研究证实,各组件——全局对齐、类别级对齐与静态物体先验——均独立且累积地贡献于性能提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。