[论文解读] Semi-supervised Semantic Segmentation with Prototype-based Consistency Regularization
简述:在教师-学生框架中提出一个基于原型的预测器,并引入相对于线性预测器的一致性损失,从而在半监督语义分割中减少类内方差并提升标签传播效果。
Semi-supervised semantic segmentation requires the model to effectively propagate the label information from limited annotated images to unlabeled ones. A challenge for such a per-pixel prediction task is the large intra-class variation, i.e., regions belonging to the same class may exhibit a very different appearance even in the same picture. This diversity will make the label propagation hard from pixels to pixels. To address this problem, we propose a novel approach to regularize the distribution of within-class features to ease label propagation difficulty. Specifically, our approach encourages the consistency between the prediction from a linear predictor and the output from a prototype-based predictor, which implicitly encourages features from the same pseudo-class to be close to at least one within-class prototype while staying far from the other between-class prototypes. By further incorporating CutMix operations and a carefully-designed prototype maintenance strategy, we create a semi-supervised semantic segmentation algorithm that demonstrates superior performance over the state-of-the-art methods from extensive experimental evaluation on both Pascal VOC and Cityscapes benchmarks.
研究动机与目标
- 解决在半监督语义分割中妨碍标签传播的大类内方差问题。
- 提出一个基于原型的预测器和一个一致性损失,以正则化同类特征分布。
- 结合 CutMix 与原型维护策略以提高鲁棒性和性能。
- 在 Pascal VOC 2012 和 Cityscapes 上展示优于现有方法的性能。
提出的方法
- 使用两头预测器设置:一个可学习的线性预测器和一个基于原型的预测器(具有动态原型集)。
- 鼓励线性预测器输出(教师)与基于原型的预测器输出(学生)之间的一致性,以正则化特征,使同类特征聚集在原型周围,同时与其他类别分离。
- 纳入 CutMix 以确保对混合未标注图像的一致性并增强鲁棒性。
- 通过带标签像素和伪标记像素的滑动平均来维护和更新原型。
- 在教师-学生框架内训练,其中教师为未标注数据提供伪标签,其权重为学生的 EMA。
实验结果
研究问题
- RQ1原型基表示如何帮助缓解半监督语义分割中的类内方差?
- RQ2在线性与基于原型的预测之间强制一致性是否能改善标签传播和分割精度?
- RQ3CutMix 与原型维护对半监督学习表现的影响?
- RQ4每个类别使用多少个原型能在表达能力与计算开销之间达到最佳平衡?
- RQ5该方法能否在标准基准测试中超越现有半监督分割方法?
主要发现
| 方法 | 1/16 | 1/8 | 1/4 | 1/2 | 全量 |
|---|---|---|---|---|---|
| 本方法 | 70.06 | 74.71 | 77.16 | 78.49 | 80.65 |
- 在 Pascal VOC 2012(1/16 到全量标签)下,该方法在 Table 1 中的 70.06%、74.71%、77.16%、78.49%、80.65% mIoU 分别达到最佳(列出方法中)。
- 该方法在有标签基线之上实现显著提升,并在多种半监督方法中超越了若干最先进的方法,覆盖多种标签制约。
- 基于原型的一致性正则化使同类内部特征分布更加紧凑,有助于像素级标签传播(通过 t-SNE 的可视化证据)。
- 消融实验显示,包含线性预测器、基于原型的预测器与更新机制的完整模型表现最佳(Table 4)。
- 每个类别使用多个原型时(最佳约为 4)能提升性能,而原型过多则效益递减。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。