[论文解读] Fully Convolutional Adaptation Networks for Semantic Segmentation
提出 FCAN,一种双域适应框架用于语义分割,结合 appearance-level (AAN) 与 representation-level (RAN) 适应,缩小合成场景与真实场景之间的差距;在 GTA5→Cityscapes 和 BDDS 上实现最先进的无监督领域自适应。
The recent advances in deep neural networks have convincingly demonstrated high capability in learning vision models on large datasets. Nevertheless, collecting expert labeled datasets especially with pixel-level annotations is an extremely expensive process. An appealing alternative is to render synthetic data (e.g., computer games) and generate ground truth automatically. However, simply applying the models learnt on synthetic images may lead to high generalization error on real images due to domain shift. In this paper, we facilitate this issue from the perspectives of both visual appearance-level and representation-level domain adaptation. The former adapts source-domain images to appear as if drawn from the "style" in the target domain and the latter attempts to learn domain-invariant representations. Specifically, we present Fully Convolutional Adaptation Networks (FCAN), a novel deep architecture for semantic segmentation which combines Appearance Adaptation Networks (AAN) and Representation Adaptation Networks (RAN). AAN learns a transformation from one domain to the other in the pixel space and RAN is optimized in an adversarial learning manner to maximally fool the domain discriminator with the learnt source and target representations. Extensive experiments are conducted on the transfer from GTA5 (game videos) to Cityscapes (urban street scenes) on semantic segmentation and our proposal achieves superior results when comparing to state-of-the-art unsupervised adaptation techniques. More remarkably, we obtain a new record: mIoU of 47.5% on BDDS (drive-cam videos) in an unsupervised setting.
研究动机与目标
- 通过利用未标注的真实数据,在从合成数据学习分割模型时解决域偏移。
- 开发一个结合 appearance-level 与 representation-level 不变性的双-pronged 适应方法。
- 在无监督域自适应设置中展示改进的分割性能。
- 证明将 AAN 与 RAN 相结合在 GTA5→Cityscapes 和 BDDS 上达到最先进的结果。
提出的方法
- 引入 Appearance Adaptation Networks (AAN),通过对 CNN 特征图上的内容损失和风格损失,使源域图像在保持源内容的同时更像目标域风格。
- 引入 Representation Adaptation Networks (RAN),采用共享的 FCN 和一个域判别器,通过对抗训练学习域不变表示,并通过 Atrous Spatial Pyramid Pooling (ASPP) 提供多尺度上下文。
- 用源数据的分割损失和对抗性损失来优化 RAN,以欺骗域判别器;使用多尺度 ASPP 以增强对抗学习。
- 用白噪声输入实现 AAN,通过梯度下降更新以最小化内容距离和风格距离的组合;设置一个较小的 alpha 来平衡内容与风格。
- 在 AAN 特征提取中使用预训练的 ResNet-50;在 RAN 中采用带 ASPP 的膨胀 FCN(ResNet-101 主干)以及一个四分支膨胀判别器。
- 在 Caffe 中使用 SGD 进行训练,先在源域上以分割损失进行预训练,然后再用对抗损失和分割损失进行微调(lambda=5)。
实验结果
研究问题
- RQ1将 appearance-level 与 representation-level 域适应相结合,能否提升跨域的无监督语义分割?
- RQ2每个组件(AAN、RAN、ASPP)对跨域分割性能的贡献有多大?
- RQ3从 GTA5 转移到 Cityscapes 和 BDDS 时的增益是多少,且多尺度(MS)扩展是否还能进一步提升结果?
- RQ4带有部分带标 Target域数据的半监督扩展是否优于完全无监督的适配?
主要发现
- 在无监督 GTA5→Cityscapes 设置中,FCAN 在 Cityscapes 上达到 46.60 mIoU(包含所有组件)。
- 单独的 AAN 提升性能;将 AAN 与 RAN 结合可获得最佳 mIoU(46.60),并通过晚融合进一步提升(46.60→46.60)。
- RAN 通过对抗域适应带来显著增益,其中 ADA、Conv、ASPP 分别贡献 5.78%、1.88%、1.64%,将其加入 FCN 总共提升 9.3%。
- MS 扩展在 Cityscapes 上使 FCAN(MS) 达到 47.75% mIoU。
- 在 BDDS 上,FCAN 达到 43.35% mIoU,FCAN(MS) 45.47%,FCAN(MS+EN) 47.53%(集成);这些相比 FCNWild 提升 3.98% 到 7.16%,视具体设置而定。
- 引入带标目标数据的半监督自适应显示出进一步提升,例如 50 张带标注图像时 FCAN 为 56.50 mIoU,而 FCN 为 47.57;当有 1000 张图像时,FCAN 为 69.17,FCN 为 68.05。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。