QUICK REVIEW

[论文解读] Revisiting CycleGAN for semi-supervised segmentation

Arnab Kumar Mondal, Aniket Agarwal|arXiv (Cornell University)|Aug 30, 2019

Advanced Neural Network Applications参考文献 31被引用 28

一句话总结

该论文提出了一种新颖的半监督语义分割方法，利用CycleGAN在未标记的真实图像与真实分割掩码之间的循环一致性映射，作为无监督正则化器。通过在图像与掩码之间强制执行双向循环一致性，该方法在三个不同基准数据集（PASCAL VOC 2012、Cityscapes 和 ACDC）上，相较于基线方法将分割准确率提升了2–4%，尤其在低标签数据设置下表现显著。

ABSTRACT

In this work, we study the problem of training deep networks for semantic image segmentation using only a fraction of annotated images, which may significantly reduce human annotation efforts. Particularly, we propose a strategy that exploits the unpaired image style transfer capabilities of CycleGAN in semi-supervised segmentation. Unlike recent works using adversarial learning for semi-supervised segmentation, we enforce cycle consistency to learn a bidirectional mapping between unpaired images and segmentation masks. This adds an unsupervised regularization effect that boosts the segmentation performance when annotated data is limited. Experiments on three different public segmentation benchmarks (PASCAL VOC 2012, Cityscapes and ACDC) demonstrate the effectiveness of the proposed method. The proposed model achieves 2-4% of improvement with respect to the baseline and outperforms recent approaches for this task, particularly in low labeled data regime.

研究动机与目标

通过利用未标记数据，减少语义分割对大规模像素级标注的依赖。
解决医学、自动驾驶和自然场景分割中标签数据有限的挑战。
探究CycleGAN的无配对图像到图像翻译是否可作为半监督语义分割中有效的无监督正则化器。
在多样化数据集上验证该方法，并证明其在域偏移场景外的泛化能力。
通过消融实验分析损失架构中各组件对性能的贡献。

提出的方法

该方法同时训练四个网络：两个生成器（G_IS 和 G_SI）和两个判别器（D_I 和 D_S），以实现在未标记图像与分割掩码之间的双向映射。
通过两个损失项强制实现循环一致性：$L_{\text{cycle}}^I$ 用于图像重建，$L_{\text{cycle}}^S$ 用于掩码重建，确保经过生成器转换后的图像和掩码能够被恢复。
使用对抗性损失 $L_{\text{disc}}^I$ 和 $L_{\text{disc}}^S$ 分别区分真实图像与生成图像、真实掩码与生成掩码，以提升生成结果的真实性。
完整损失函数将标注数据上的监督交叉熵损失与循环一致性损失及对抗性损失相结合，形成统一的训练目标。
模型通过端到端方式训练，使用包含真实掩码的标注图像和未标注图像，无需成对的图像-掩码数据。
通过逐个移除损失组件进行消融实验，以评估其对性能的贡献。

实验结果

研究问题

RQ1CycleGAN的循环一致无配对图像到掩码转换能否被有效重用于半监督语义分割中的无监督正则化？
RQ2在标签数据稀缺时，强制实现未标记图像与分割掩码之间的循环一致性如何提升泛化能力？
RQ3图像级与掩码级的循环一致性损失及对抗性损失在整体性能中的相对贡献如何？
RQ4所提出的方法是否能在包括医学影像、自动驾驶和自然场景在内的多样化分割任务中实现泛化？
RQ5在少样本学习设置下，该模型相较于现有的基于GAN和非GAN的半监督分割方法表现如何？

主要发现

当仅使用20%的训练数据进行标注时，所提方法在mIOU上相比监督基线模型提升了2–4%，表明其在低数据设置下具有强大性能。
在PASCAL VOC 2012数据集上，使用20%标注数据时，模型达到0.2981的mIOU，优于全监督基线和Hung等人提出的方法。
消融实验表明，移除掩码循环一致性损失（$L_{\text{cycle}}^S$）导致性能下降最大（mIOU降至0.2627），表明其在保持语义准确性方面起着关键作用。
图像判别器损失（$L_{\text{disc}}^I$）比掩码判别器损失更重要，因为若省略它，消融实验中mIOU最低（为0.2543）。
可视化对比显示，即使使用低分辨率图像，该方法在保留全局语义结构和细小物体细节（如腿部、人物）方面也优于基线方法。
该方法具有数据集无关性，在三个不同领域（自然场景，VOC；城市驾驶，Cityscapes；心脏MRI，ACDC）中均表现有效，证实其广泛适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。