[论文解读] Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation
本文提出了一种用于半监督语义分割的解耦深度神经网络,将分类与分割任务分离为两个独立的网络,利用图像级标签进行分类,利用像素级标注进行分割。通过桥接层传递类别特定的激活图,该方法缩小了分割搜索空间,从而在极少强标注的情况下实现高性能——即使在PASCAL VOC数据集中每类仅使用5至10张像素级标注图像,其性能仍优于现有半监督方法。
We propose a novel deep neural network architecture for semi-supervised semantic segmentation using heterogeneous annotations. Contrary to existing approaches posing semantic segmentation as a single task of region-based classification, our algorithm decouples classification and segmentation, and learns a separate network for each task. In this architecture, labels associated with an image are identified by classification network, and binary segmentation is subsequently performed for each identified label in segmentation network. The decoupled architecture enables us to learn classification and segmentation networks separately based on the training data with image-level and pixel-wise class labels, respectively. It facilitates to reduce search space for segmentation effectively by exploiting class-specific activation maps obtained from bridging layers. Our algorithm shows outstanding performance compared to other semi-supervised approaches even with much less training images with strong annotations in PASCAL VOC dataset.
研究动机与目标
- 为解决语义分割中高标注成本的问题,实现对有限像素级标注的有效利用。
- 通过解耦分类与分割任务,减少分割过程中的搜索空间。
- 通过避免弱监督方法中常见的迭代优化过程,简化训练流程。
- 通过利用图像级与像素级标注,提升半监督设置下的性能表现。
- 通过桥接层实现每类的引导分割,实现在极小强监督下的鲁棒泛化能力。
提出的方法
- 该架构将分类与分割解耦为两个独立的深度神经网络。
- 分类网络使用图像级标签识别图像中的物体类别。
- 分割网络对分类网络识别出的每一类执行前景-背景分割。
- 桥接层将分类网络中的类别特定激活图传递至分割网络,实现聚焦于每类的分割。
- 训练过程独立进行:分类任务使用图像级标签,分割任务使用像素级标注。
- 推理过程直接进行,无需后处理或迭代优化。
实验结果
研究问题
- RQ1解耦分类与分割是否能在强标注有限的半监督语义分割中提升性能?
- RQ2通过桥接层传递类别特定特征,如何减少分割搜索空间?
- RQ3非迭代训练策略是否能超越现有迭代式弱监督方法?
- RQ4在每类仅使用少量像素级标注图像的情况下,性能可提升至何种程度?
- RQ5与联合优化架构相比,该解耦架构在准确率与训练简便性方面表现如何?
主要发现
- 即使每类仅使用5或10张强标注图像,所提出的DecoupledNet在mIoU上仍显著优于WSSL [8]。
- 在每类仅5张强标注图像的情况下,DecoupledNet大幅超越当前最先进弱监督方法[7],后者依赖大量后处理步骤。
- 仅使用图像级标签时,该方法在PASCAL VOC 2012上达到42.0%的mIoU,而DecoupledNet在仅使用极少强标注时性能显著更高。
- DecoupledNet-Str(在相同图像上联合训练两个网络)仍优于DeconvNet [12],证明了解耦设计的优势。
- 定性结果表明,即使每类仅提供五张强标注,模型仍能实现良好泛化,随着强标注数量增加,准确率提升且标签混淆减少。
- 训练过程简洁且可复现,避免了其他半监督方法中常见的启发式与复杂迭代步骤。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。