[论文解读] Adversarial Learning for Semi-Supervised Semantic Segmentation
本论文在GAN框架中引入一个全卷积判别器,通过将预测的概率图与地面实况图对齐,并利用自我监督信号的未标记数据,提升半监督语义分割,在 VOC 2012 和 Cityscapes 上取得增益。
We propose a method for semi-supervised semantic segmentation using an adversarial network. While most existing discriminators are trained to classify input images as real or fake on the image level, we design a discriminator in a fully convolutional manner to differentiate the predicted probability maps from the ground truth segmentation distribution with the consideration of the spatial resolution. We show that the proposed discriminator can be used to improve semantic segmentation accuracy by coupling the adversarial loss with the standard cross entropy loss of the proposed model. In addition, the fully convolutional discriminator enables semi-supervised learning through discovering the trustworthy regions in predicted results of unlabeled images, thereby providing additional supervisory signals. In contrast to existing methods that utilize weakly-labeled images, our method leverages unlabeled images to enhance the segmentation model. Experimental results on the PASCAL VOC 2012 and Cityscapes datasets demonstrate the effectiveness of the proposed algorithm.
研究动机与目标
- 通过利用未标注数据来减少语义分割的标注负担。
- 提出一个对抗框架,在该框架中分割网络(生成器)由全卷积判别器引导。
- 通过从判别器输出推导可信区域来监督未标记数据,从而实现半监督学习。
- 通过将对抗损失整合到端到端训练中,在测试时消除后处理步骤。
提出的方法
- 使用一个分割网络(DeepLab-v2,ResNet-101)生成 H x W x C 的概率图。
- 引入一个全卷积判别器 D,它接收概率图并输出一个 H x W x 1 的空间置信图,指示地面实况与分割源之间的差异。
- 用空间交叉熵训练 D,以区分地面实况图与分割输出。
- 用多任务损失训练 S: L_seg = L_ce + lambda_adv L_adv + lambda_semi L_semi。
- L_adv 促使 S 产生能够愚弄 D 的概率图(最大化 D(S(X)) 被判定为地面实况)。
- 对于未标记数据,通过 D 计算置信图,并使用自教师标签应用带掩码的交叉熵损失 L_semi;阈值 T_semi 用于选择可信区域。
实验结果
研究问题
- RQ1一个在像素级概率图上操作的对抗判别器是否能够在不增加推理成本的前提下提升分割质量?
- RQ2未标记图像是否可以通过判别器推导的置信图和自教师监督来提升分割性能?
- RQ3在标准数据集上,带对抗信号的半监督训练与全监督基线相比有何表现?
- RQ4判别器架构(全卷积)与超参数对半监督增益有何影响?
主要发现
| 数据量 | 方法 | 1/8 | 1/4 | 1/2 | 全量 |
|---|---|---|---|---|---|
| VOC 2012 | 基线 | 66.0 | 68.3 | 69.8 | 73.6 |
| VOC 2012 | 基线 + L_adv | 67.6 | 71.0 | 72.6 | 74.9 |
| VOC 2012 | 基线 + L_adv + L_semi | 69.5 | 72.1 | 73.8 | N/A |
| Cityscapes | 基线 | 55.5 | 59.9 | 64.1 | 66.4 |
| Cityscapes | 基线 + L_adv | 57.1 | 61.8 | 64.6 | 67.7 |
| Cityscapes | 基线 + L_adv + L_semi | 58.8 | 62.3 | 65.7 | N/A |
- 对抗损失在 VOC 2012 的不同带标数据量下相较基线提供一致增益(从 1/8 到全量)。
- 引入 L_adv 可带来 1.6% 到 2.8% 的提升;与 L_semi 结合后在 VOC 2012 上再增 3.5% 到 4.0% 的提升。
- 在 Cityscapes 上,L_adv 提供 0.5% 到 1.9% 的增益,结合 L_semi 后提升为 1.6% 到 3.3%。
- 全卷积判别器是关键,非全卷积设置在 VOC 上约低 1%、总体消融约低 1.5%。
- 半监督学习依赖判别器推导的置信图来屏蔽训练信号;在 T_semi 取值 [0.1, 0.3] 时效果良好。
- 相比先前的对抗方法,所提出的方法在半监督设置下在 VOC 2012 上实现了更高的平均 IU。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。