Skip to main content
QUICK REVIEW

[论文解读] Semi and Weakly Supervised Semantic Segmentation Using Generative Adversarial Network

Nasim Souly, Concetto Spampinato|arXiv (Cornell University)|Mar 28, 2017
Generative Adversarial Networks and Image Synthesis参考文献 25被引用 53
一句话总结

本文使用生成对抗网络的半监督和弱监督语义分割,其中生成器产生假图像以正则化多类像素分类器(判别器)。通过弱标签进行条件控制进一步提升生成样本质量和在多个数据集上的分割性能。

ABSTRACT

Semantic segmentation has been a long standing challenging task in computer vision. It aims at assigning a label to each image pixel and needs significant number of pixellevel annotated data, which is often unavailable. To address this lack, in this paper, we leverage, on one hand, massive amount of available unlabeled or weakly labeled data, and on the other hand, non-real images created through Generative Adversarial Networks. In particular, we propose a semi-supervised framework ,based on Generative Adversarial Networks (GANs), which consists of a generator network to provide extra training examples to a multi-class classifier, acting as discriminator in the GAN framework, that assigns sample a label y from the K possible classes or marks it as a fake sample (extra class). The underlying idea is that adding large fake visual data forces real samples to be close in the feature space, enabling a bottom-up clustering process, which, in turn, improves multiclass pixel classification. To ensure higher quality of generated images for GANs with consequent improved pixel classification, we extend the above framework by adding weakly annotated data, i.e., we provide class level information to the generator. We tested our approaches on several challenging benchmarking visual datasets, i.e. PASCAL, SiftFLow, Stanford and CamVid, achieving competitive performance also compared to state-of-the-art semantic segmentation method

研究动机与目标

  • 在半监督设置下利用未标注数据来正则化深度分割模型。
  • 探索使用 GANs,其中判别器执行像素级多类别分类来进行分割。
  • 通过对图像级标签进行条件化来增强对比学习样本质量和分割精度的 GAN 训练。
  • 在多个具有挑战性的数据集上评估所提框架并与最先进的方法进行比较。

提出的方法

  • 将标准 GAN 判别器替换为一个完全卷积的多分类像素分类器,输出 K+1 个类别的置信度(K 个真实类别加一个伪造类别)。
  • 训练生成器以产生推动判别器将像素分配给真实类别标签的图像,同时产生看起来像训练数据的真实样本。
  • 为判别器使用三条数据流:带标签数据、未标签数据和生成的(伪造)数据,采用像素级交叉熵损失和伪造数据项。
  • 为判别器形式化半监督损失,使其最大化 real 数据的 log(D(x)),对带标签数据最小化交叉熵,对伪造数据最小化 log(1−D(G(z)))。
  • 通过条件 GAN 提供一个弱监督扩展,其中图像级标签 l 用于对 G 和 D 进行条件化,在生成的图像中强制标签存在并用图像级监督引导判别器。
  • 在弱监督中,将一个热独热向量连接到生成器输入以产生类别条件图像,并将损失调整为包含图像级标签一致性。

实验结果

研究问题

  • RQ1未标注数据和来自 GAN 的合成样本是否能在像素级语义分割性能上优于完全监督训练?
  • RQ2将 GAN 条件化到弱图像级标签是否进一步提升生成样本质量和下游分割性能?
  • RQ3在标准基准 (VOC 2012, SiftFlow, StanfordBG, CamVid) 上,半监督和弱监督基于 GAN 的框架相对于最先进方法的表现如何?

主要发现

  • 在 VOC 2012 val 上,半监督训练的像素精度为 90.5,平均精度 80.7,平均 IU 64.1,优于完全监督基线的 89.9/69.2/59.5。
  • 在 VOC 2012 val 使用 30% 的完全标注数据时,半监督将平均 IU 提升至 42.2,像素精度提升至 83.6,而弱监督达到 44.6 平均 IU 和 84.6 像素精度。
  • 在 VOC 2012 val 上,弱监督超越若干最先进的半监督方法的平均 IU 和平均准确度,达到 65.8 的平均 IU 和 91.3 的像素精度。
  • 在 SiftFlow 上,半监督将平均 IU 提升至 35.1,像素精度提升至 86.3,分别高于完全监督基线 83.4/34.4。
  • 在 StanfordBG 与 CamVid 上,半监督和弱监督的 GANs 均优于完全监督基线和竞争方法,平均准确度和平均 IU 均有显著提升。
  • 定性结果显示生成的图像捕捉到特定数据集结构(如底部道路、顶部天空),帮助判别器学习有意义的像素级特征。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。