[论文解读] Multi-source Domain Adaptation for Semantic Segmentation
MADAN 引入一个多源无监督域自适应框架,用于语义分割,联合执行像素级自适应、对多个已适配源的域聚合以及特征级对齐到目标域,在 GTA/SYNTHIA 到 Cityscapes/BDDS 基准上实现了最新结果。
Simulation-to-real domain adaptation for semantic segmentation has been actively studied for various applications such as autonomous driving. Existing methods mainly focus on a single-source setting, which cannot easily handle a more practical scenario of multiple sources with different distributions. In this paper, we propose to investigate multi-source domain adaptation for semantic segmentation. Specifically, we design a novel framework, termed Multi-source Adversarial Domain Aggregation Network (MADAN), which can be trained in an end-to-end manner. First, we generate an adapted domain for each source with dynamic semantic consistency while aligning at the pixel-level cycle-consistently towards the target. Second, we propose sub-domain aggregation discriminator and cross-domain cycle discriminator to make different adapted domains more closely aggregated. Finally, feature-level alignment is performed between the aggregated domain and target domain while training the segmentation network. Extensive experiments from synthetic GTA and SYNTHIA to real Cityscapes and BDDS datasets demonstrate that the proposed MADAN model outperforms state-of-the-art approaches. Our source code is released at: https://github.com/Luodian/MADAN.
研究动机与目标
- 在现实的多源域偏移下推动语义分割(具有不同分布的多个标注源)。
- 开发一个端到端框架,结合像素级自适应、语义约束和循环一致性约束。
- 推动将多个适配后的域聚合成一个统一域,以提升目标域性能。
- 通过聚合源域与真实目标域之间的特征级对齐来提升分割性能。
提出的方法
- 对于每个源 S_i,学习映射到目标域 T 以生成适配图像 G_{S_i→T},以及一个反向映射 G_{T→S_i},并使用循环一致性损失。
- 通过将适配域的预测与动态更新的分割模型对齐,引入动态语义一致性(DSC),以保持语义。
- 使用 Sub-domain Aggregation Discriminator (SAD) 和 Cross-domain Cycle Discriminator (CCD) 将多个适配域聚合成一个统一域。
- 在聚合域 X' 上用交叉熵任务损失训练分割模型 F,并在目标域特征上用判别器 D_F 进行特征级对齐。
- 优化将像素级 GAN 损失、循环一致性损失、DSC 损失、SAD/CCD 损失以及特征级对齐损失整合为一个统一的 MADAN 目标。
- 提供三阶段训练(初始像素级适应、带聚合的动态语义一致性、以及最终特征对齐的分割),并进行迭代细化。
实验结果
研究问题
- RQ1多个源域能否被有效聚合,以提升语义分割的无监督域自适应?
- RQ2由像素级自适应加上语义一致性和域聚合是否比传统的单源或天真的多源方法在目标域上获得更好的性能?
- RQ3在 GTA/SYNTHIA 到 Cityscapes/BDDS 的任务中,将 SAD 和 CCD 判别器与 DSC 结合对分割准确率有何影响?
- RQ4在像素级和域聚合自适应之上应用特征级对齐贡献有多大?
主要发现
- MADAN 在 GTA 和 SYNTHIA 到 Cityscapes 和 BDDS 上超越了现有最先进方法,展示了多源聚合带来的显著增益。
- DSC 损失优于原始 SC 损失,表明在像素级自适应过程中更好地保持了语义。
- SAD 和 CCD 都提升了性能,SAD 在各指标上提供了更一致的增益。
- 增加特征级对齐进一步提升了性能,这些组件在很大程度上是正交的,提供叠加的改进。
- 经验性消融实验证明了融合像素级翻译、语义引导、域聚合和特征对齐的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。