[论文解读] ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation
该论文提出 ST++,通过引入强数据增强(SDA)来显著提升半监督语义分割中的自训练性能,实现教师-学生模型预测的解耦并增强对噪声伪标签的鲁棒性。此外,通过基于整体预测稳定性的图像级选择性重训练进一步推进该方法,在各类基准测试中取得最先进性能,尤其在低标签设置下表现优异,无需迭代重训练或复杂组件,大幅超越先前方法。
Self-training via pseudo labeling is a conventional, simple, and popular pipeline to leverage unlabeled data. In this work, we first construct a strong baseline of self-training (namely ST) for semi-supervised semantic segmentation via injecting strong data augmentations (SDA) on unlabeled images to alleviate overfitting noisy labels as well as decouple similar predictions between the teacher and student. With this simple mechanism, our ST outperforms all existing methods without any bells and whistles, e.g., iterative re-training. Inspired by the impressive results, we thoroughly investigate the SDA and provide some empirical analysis. Nevertheless, incorrect pseudo labels are still prone to accumulate and degrade the performance. To this end, we further propose an advanced self-training framework (namely ST++), that performs selective re-training via prioritizing reliable unlabeled images based on holistic prediction-level stability. Concretely, several model checkpoints are saved in the first stage supervised training, and the discrepancy of their predictions on the unlabeled image serves as a measurement for reliability. Our image-level selection offers holistic contextual information for learning. We demonstrate that it is more suitable for segmentation than common pixel-wise selection. As a result, ST++ further boosts the performance of our ST. Code is available at https://github.com/LiheYoung/ST-PlusPlus.
研究动机与目标
- 通过解决其在噪声标签泛化和预测耦合方面的局限性,重新激发经典自训练作为半监督语义分割的强基线方法。
- 探究强数据增强(SDA)在解耦教师与学生模型预测并提升对噪声伪标签鲁棒性方面的有效性。
- 通过提出一种基于预测稳定性的选择性重训练机制,解决由不可靠伪标签引发的确认偏见问题,优先选择基于预测稳定性可靠的未标注图像。
- 证明图像级选择可靠图像比像素级选择更有效,原因在于其具备更好的上下文一致性。
- 建立一个简单但极为高效的方法框架,在无需迭代重训练或人工阈值设定的前提下,超越复杂的最先进方法。
提出的方法
- 通过在未标注图像上应用强数据增强(SDA),如颜色抖动、模糊和灰度化,构建一个强自训练基线(ST),以减少过拟合并解耦教师与学生模型之间的预测。
- 在 ST++ 中采用两阶段训练流程:在初始监督训练期间保存模型检查点,并利用这些检查点之间的预测差异来衡量未标注图像预测的稳定性和可靠性。
- 通过优先处理最稳定(可靠)的未标注图像来执行选择性重训练,首先利用其高置信度伪标签改进学生模型,再对剩余可靠性较低的图像进行重新标注。
- 以图像级稳定性作为选择标准——评估多个模型检查点间伪掩码演化的连续性——提供更全面的上下文信息,相比像素级置信度阈值更适用于分割任务。
- 采用渐进式重训练策略,优先处理可靠图像,从而减少确认偏见,并提升整个未标注数据集的伪标签质量。
- 表明该方法对超参数选择具有鲁棒性,50% 和 75% 的选择比例均能取得优异性能,并在可选的迭代重训练阶段中进一步提升性能。
实验结果
研究问题
- RQ1一个仅包含强数据增强的简单自训练框架,是否能在无需迭代重训练或人工阈值设定的前提下,超越复杂的最先进方法?
- RQ2强数据增强在解耦教师与学生模型预测并减少对噪声伪标签过拟合方面有多有效?
- RQ3基于预测稳定性的图像级选择是否比像素级选择更有效,以提升语义分割中伪标签的质量?
- RQ4基于整体稳定性的选择性重训练是否优于随机或单阶段重训练流程?
- RQ5当结合稳定图像选择与 SDA 时,一个简单且非迭代的框架是否仍能实现 SOTA 性能?
主要发现
- 所提出的 ST 基线结合强数据增强在 Pascal VOC 上达到最先进性能,即使不依赖迭代重训练或复杂组件,也大幅超越先前方法。
- 在 1/16 标签设置(92 张图像)下,ST++ 达到 68.3% mIoU,显著优于单阶段 ST 基线的 65.2% mIoU,证明选择性重训练的有效性。
- ST++ 中基于图像级的选择性重训练在 1/4 标签设置下持续优于随机两阶段重训练和像素级选择,分别达到 75.4%、74.7% 和 74.9% mIoU。
- 消融实验表明,仅选择最稳定的 50% 图像已具高度有效性,75% 选择比例进一步提升至 74.5% mIoU。
- 该方法对不同选择比例具有鲁棒性,25%、50% 和 75% 阈值下的性能保持稳定,表明其泛化能力可靠。
- 可选的第三轮重训练阶段进一步将 1/4 标签设置下的性能提升至 75.2% mIoU,表明选择性地应用迭代优化仍具增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。