[论文解读] Switching Temporary Teachers for Semi-Supervised Semantic Segmentation
本文提出Dual Teacher,使用两个在每个训练纪元切换的临时EMA教师来引导单个学生进行半监督语义分割,从而减少教师-学生耦合并在基准上提高效率。
The teacher-student framework, prevalent in semi-supervised semantic segmentation, mainly employs the exponential moving average (EMA) to update a single teacher's weights based on the student's. However, EMA updates raise a problem in that the weights of the teacher and student are getting coupled, causing a potential performance bottleneck. Furthermore, this problem may become more severe when training with more complicated labels such as segmentation masks but with few annotated data. This paper introduces Dual Teacher, a simple yet effective approach that employs dual temporary teachers aiming to alleviate the coupling problem for the student. The temporary teachers work in shifts and are progressively improved, so consistently prevent the teacher and student from becoming excessively close. Specifically, the temporary teachers periodically take turns generating pseudo-labels to train a student model and maintain the distinct characteristics of the student model for each epoch. Consequently, Dual Teacher achieves competitive performance on the PASCAL VOC, Cityscapes, and ADE20K benchmarks with remarkably shorter training times than state-of-the-art methods. Moreover, we demonstrate that our approach is model-agnostic and compatible with both CNN- and Transformer-based models. Code is available at \url{https://github.com/naver-ai/dual-teacher}.
研究动机与目标
- 在半监督分割中动机并解决教师–学生耦合问题,其中EMA更新将教师和学生联系得过于紧密。
- 提出Dual Teacher,具备两个在每个训练时期切换的临时EMA教师以实现监督多样化。
- 对学生使用强增强,对教师使用弱增强以生成伪标签。
- 通过子模型引入隐式一致性学习,形成隐式集成以提高鲁棒性。
提出的方法
- 引入Dual Teacher:两个临时EMA教师交替为单个学生生成伪标签。
- 在每个训练时期改变学生的增强集合以维持不同的学生特征并引入教师多样性。
- 通过对学生权重的EMA更新每个临时教师,确保它们反映不断演化的学生但保持彼此的不同。
- 通过使用随机深度对学生的子模型与完整教师模型之间的预测进行一致性约束来应用隐式一致性学习。
- 在带标签数据上使用监督损失、在无标签数据上使用来自教师的伪标签的无监督损失进行优化。
实验结果
研究问题
- RQ1切换两个临时教师是否能缓解语义分割的SSL中教师–学生耦合?
- RQ2在标准基准上,交替的教师切换与多样化增强是否提高分割精度?
- RQ3该方法是否在基于CNN和Transformer的骨干网络上具有模型无关性?
- RQ4在此框架中,隐式一致性学习的影响是什么?
主要发现
- Dual Teacher在PASCAL VOC、Cityscapes和ADE20K上实现具竞争力的mIoU,同时训练时间更短、参数更少。
- 预测距离分析显示单一EMA教师与学生高度耦合,而Dual Teacher保持多样化的监督。
- 两个临时教师提供不同类别层面的监督,为学生带来互补的引导。
- 增加增强或教师数量可带来提升,但达不到一定点后收益递减,双教师加增强达到最佳性能。
- 使用一致性学习并配合统一衰减可提升稳定性和最终准确性。
- 在ADE20K的SegFormer上,Dual Teacher在所有分区上均优于有监督基线且保持高效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。