[论文解读] Unsupervised Domain Adaptation in Semantic Segmentation: a Review
本综述全面回顾了语义分割中无监督域自适应(UDA)技术,按自适应层级(输入、特征或输出)和学习范式(包括对抗学习、自教学习和熵最小化)对方法进行分类。结果表明,在GTA5到Cityscapes的域自适应任务中,基于ResNet-101的模型在最优设置下实现了高达68.5%的mIoU,达到当前最先进性能。
The aim of this paper is to give an overview of the recent advancements in the Unsupervised Domain Adaptation (UDA) of deep networks for semantic segmentation. This task is attracting a wide interest, since semantic segmentation models require a huge amount of labeled data and the lack of data fitting specific requirements is the main limitation in the deployment of these techniques. This problem has been recently explored and has rapidly grown with a large number of ad-hoc approaches. This motivates us to build a comprehensive overview of the proposed methodologies and to provide a clear categorization. In this paper, we start by introducing the problem, its formulation and the various scenarios that can be considered. Then, we introduce the different levels at which adaptation strategies may be applied: namely, at the input (image) level, at the internal features representation and at the output level. Furthermore, we present a detailed overview of the literature in the field, dividing previous methods based on the following (non mutually exclusive) categories: adversarial learning, generative-based, analysis of the classifier discrepancies, self-teaching, entropy minimization, curriculum learning and multi-task learning. Novel research directions are also briefly introduced to give a hint of interesting open problems in the field. Finally, a comparison of the performance of the various methods in the widely used autonomous driving scenario is presented.
研究动机与目标
- 提供无监督域自适应(UDA)在语义分割领域最新进展的系统性概述。
- 基于自适应层级(输入、特征、输出或网络级)和学习范式对现有UDA方法进行分类。
- 分析各种UDA技术在标准基准上的性能表现,特别是在自动驾驶中常见的合成到真实域偏移场景下。
- 识别开放问题和未来研究方向,包括开放集和无界集UDA,以及跨任务可迁移性。
- 在Cityscapes、GTA5和SYNTHIA等广泛使用的数据集上对比最先进方法,突出骨干网络架构对性能趋势的影响。
提出的方法
- 将UDA方法划分为七种非互斥范式:对抗学习、生成模型、分类器差异分析、自教学习、熵最小化、课程学习和多任务学习。
- 分析三种层级的自适应策略:输入层级(如图像风格迁移)、特征层级(如域不变表示学习)和输出层级(如跨域预测一致性)。
- 采用平均交并比(mIoU)作为主要评估指标,计算公式为 $\mathrm{mIoU} = \sum_{i=1}^{N} \frac{\mathrm{IoU}_i}{N}$,其中 $\mathrm{IoU}_i = \frac{TP_i}{TP_i + FP_i + FN_i}$。
- 在标准基准上回顾并比较方法:GTA5 → Cityscapes 和 SYNTHIA → Cityscapes,使用ResNet-101和VGG-16作为骨干网络。
- 通过按骨干网络架构分组的mIoU结果图示性能趋势,突出显示ResNet-101在多个基准上始终优于其他架构。
- 讨论架构选择,如编码器-解码器结构(如FCN、DeepLab、PSPNet)及其通过层次特征学习实现域自适应的作用。
实验结果
研究问题
- RQ1不同的自适应层级(输入、特征、输出)如何影响语义分割中UDA的性能?
- RQ2哪些学习范式(如对抗学习、自教学习、熵最小化)在跨域语义分割中表现出最稳健的性能?
- RQ3在GTA5-to-Cityscapes和SYNTHIA-to-Cityscapes等标准基准上,最先进UDA方法的相对性能如何?
- RQ4为何基于ResNet的模型在语义分割的UDA中始终优于其他架构?
- RQ5在UDA语义分割中,关键开放问题和未来研究方向是什么,特别是在开放集和持续学习设置下?
主要发现
- 基于ResNet-101的模型在GTA5-to-Cityscapes自适应任务中达到最高mIoU,最优评估协议下性能最高可达68.5%。
- VGG-16是UDA语义分割中最广泛使用的骨干网络,但ResNet-101在多个基准上始终表现更优。
- 在SYNTHIA-to-Cityscapes基准上,使用16类的模型比使用13类的模型mIoU更高,表明类别粒度会影响自适应性能。
- 在Mapillary数据集上表现最佳的方法(Spadotto et al., 2020)在从GTA5迁移时达到41.9的mIoU,凸显了适应到更复杂多变的真实世界场景的挑战。
- 尽管取得了显著进展,最先进的UDA模型在目标域上仍远未达到监督学习的性能水平,表明仍有巨大提升空间。
- 该综述指出开放集和无界集UDA是未来有前景的研究方向,尤其适用于现实部署中域偏移不可预测且动态变化的场景。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。