[论文解读] Instant-Teaching: An End-to-End Semi-Supervised Object Detection Framework
Instant-Teaching 引入了一种端到端的半监督目标检测框架,在其中使用即时伪标签、扩展的弱-强数据增强以及共校正机制,在 MS-COCO 与 PASCAL VOC 上取得了最先进的结果。
Supervised learning based object detection frameworks demand plenty of laborious manual annotations, which may not be practical in real applications. Semi-supervised object detection (SSOD) can effectively leverage unlabeled data to improve the model performance, which is of great significance for the application of object detection models. In this paper, we revisit SSOD and propose Instant-Teaching, a completely end-to-end and effective SSOD framework, which uses instant pseudo labeling with extended weak-strong data augmentations for teaching during each training iteration. To alleviate the confirmation bias problem and improve the quality of pseudo annotations, we further propose a co-rectify scheme based on Instant-Teaching, denoted as Instant-Teaching$^*$. Extensive experiments on both MS-COCO and PASCAL VOC datasets substantiate the superiority of our framework. Specifically, our method surpasses state-of-the-art methods by 4.2 mAP on MS-COCO when using $2\%$ labeled data. Even with full supervised information of MS-COCO, the proposed method still outperforms state-of-the-art methods by about 1.0 mAP. On PASCAL VOC, we can achieve more than 5 mAP improvement by applying VOC07 as labeled data and VOC12 as unlabeled data.
研究动机与目标
- 通过半监督学习利用未标记数据来降低对大规模标注数据集在目标检测中的依赖。
- 开发一个端到端的 SSOD 框架,在训练过程中实时更新伪标签。
- 通过增强策略和模型协作提升伪标签质量并降低确认偏差。
- 展示在不同标注方案下对 MS-COCO 与 PASCAL VOC 的可扩展性与有效性。
提出的方法
- 提出 Instant-Teaching,在每次训练迭代中使用弱增强为未标记数据生成伪注释。
- 对未标记数据应用强增强(包括 Mixup 和 Mosaic),以伪标签进行训练。
- 最小化由有监督检测损失和来自伪标签的无监督损失组成的联合损失。
- 引入共校正方案(Instant-Teaching *),在结构相同但权重不同的两模型之间训练,以纠正错误预测。
- 在伪标注步骤中使用基于置信度的筛选(tau)和 NMS 来整编伪注释。
- 在 STAC 风格的弱-强增强基础上增加额外增强,以提高鲁棒性和伪标签质量。

实验结果
研究问题
- RQ1端到端的 SSOD 框架能否实现伪标签的边训练边更新,从而改进对未标记数据的学习?
- RQ2扩展的弱-强增强(包括 Mixup 和 Mosaic)是否能提升半监督目标检测的性能?
- RQ3共校正是否有助于缓解确认偏差并进一步提升 SSOD 的检测准确性?
- RQ4在不同标注方案下,Instant-Teaching 与 STAC 及其他 SSOD 方法在 MS-COCO 与 PASCAL VOC 的对比如何?
主要发现
| 方法 | 骨干网络 | 1% COCO | 2% COCO | 5% COCO | 10% COCO | 100% COCO |
|---|---|---|---|---|---|---|
| Supervised | R50-FPN | 9.05 ± 0.16 | 12.70 ± 0.15 | 18.47 ± 0.22 | 23.86 ± 0.81 | 37.63 |
| CSD † | R50-FPN | 10.20 ± 0.15 (+1.15) | 13.60 ± 0.10 (+0.90) | 18.90 ± 0.10 (+0.43) | 24.50 ± 0.15 (+0.64) | 38.87 (+1.24) |
| STAC [45] | R50-FPN | 13.97 ± 0.35 (+4.92) | 18.25 ± 0.25 (+5.55) | 24.38 ± 0.12 (+5.91) | 28.64 ± 0.21 (+4.78) | 39.21 (+1.58) |
| Instant-Teaching (ours) | R50-FPN | 16.00 ± 0.20 (+6.95) | 20.70 ± 0.30 (+8.00) | 25.50 ± 0.05 (+7.03) | 29.45 ± 0.15 (+5.59) | 39.60 (+1.97) |
| Instant-Teaching ∗ (ours) | R50-FPN | 18.05 ± 0.15 (+9.00) | 22.45 ± 0.15 (+9.75) | 26.75 ± 0.05 (+8.28) | 30.40 ± 0.05 (+6.54) | 40.20 (+2.57) |
- Instant-Teaching 在 MS-COCO 的各项协议下显著优于 STAC(例如,1% 标注数据:18.05 mAP 对 13.97;2%:22.45 对 18.25)。
- Instant-Teaching ∗(含共校正)在 1%–2% COCO 协议下实现 18.05 到 22.45 mAP,在 10% COCO 达到 30.40 mAP,在完整 COCO 达到 40.20 mAP。
- 在 VOC07 上,使用 VOC07 已标注和 VOC12 未标注数据时,Instant-Teaching ∗ 的 mAP 从 44.64 提升到 50.00,使用 MS-COCO 未标注数据时达到 50.80 mAP。
- 将强增强扩展为 Mixup 和 Mosaic 可获得 5% COCO 的最佳结果(25.60 mAP),优于 STAC 的 23.14 mAP。
- 共校正通过让两模型相互修正对方的预测来加速学习并产生更高质量的伪注释,从而降低确认偏差。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。