[論文レビュー] Instant-Teaching: An End-to-End Semi-Supervised Object Detection Framework
Instant-Teaching は拡張弱-強データ拡張と共整形式を用いた instant pseudo labeling を取り入れたエンドツーエンド半監督式物体検出フレームワークを導入し、MS-COCOとPASCAL VOCで最先端の結果を達成します。
Supervised learning based object detection frameworks demand plenty of laborious manual annotations, which may not be practical in real applications. Semi-supervised object detection (SSOD) can effectively leverage unlabeled data to improve the model performance, which is of great significance for the application of object detection models. In this paper, we revisit SSOD and propose Instant-Teaching, a completely end-to-end and effective SSOD framework, which uses instant pseudo labeling with extended weak-strong data augmentations for teaching during each training iteration. To alleviate the confirmation bias problem and improve the quality of pseudo annotations, we further propose a co-rectify scheme based on Instant-Teaching, denoted as Instant-Teaching$^*$. Extensive experiments on both MS-COCO and PASCAL VOC datasets substantiate the superiority of our framework. Specifically, our method surpasses state-of-the-art methods by 4.2 mAP on MS-COCO when using $2\%$ labeled data. Even with full supervised information of MS-COCO, the proposed method still outperforms state-of-the-art methods by about 1.0 mAP. On PASCAL VOC, we can achieve more than 5 mAP improvement by applying VOC07 as labeled data and VOC12 as unlabeled data.
研究の動機と目的
- 大規模なラベル付きデータセットへの依存を半監督学習を通じて未ラベルデータを活用することによって低減させる動機づけ。
- 訓練中に擬似ラベルをリアルタイムで更新するエンドツーエンドSSODフレームワークを開発する。
- 拡張データ増強とモデル協調を通じて擬似ラベルの品質と確認バイアスを低減する。
- さまざまなラベル付け regime の下でMS-COCOとPASCAL VOCでのスケーラビリティと有効性を実証する。
提案手法
- Instant-Teaching を提案し、各トレーニング反復で弱い拡張を用いてラベルなしデータの擬似アノテーションを生成する。
- Mixupと Mosaic を含む強い拡張をラベルなしデータに適用して擬似ラベルで学習する。
- 監督学習検出損失と擬似ラベルからの教師なし損失を結合して最適化する。
- 共整機構(Instant-Teaching ∗)を導入し、同じ構造だが重みの異なる2つのモデルを訓練して誤予測を訂正する。
- 擬似ラベリングステップで信頼度ベースのフィルタリング(tau)とNMSを用いて擬似アノテーションを整備する。
- STAC風の弱-強拡張を拡張し、追加の拡張を用いてロバスト性と擬似ラベル品質を向上させる。

実験結果
リサーチクエスチョン
- RQ1エンドツーエンドのSSODフレームワークはラベルなしデータからの学習を改善するために擬似ラベルをその場で更新できるか?
- RQ2拡張された弱-強拡張(Mixupと Mosaic を含む)は半監督型物体検出の性能を向上させるか?
- RQ3共整は確認バイアスの緩和とSSODの検出精度をさらに高めるか?
- RQ4Instant-Teaching は MS-COCO および PASCAL VOC におけるさまざまなラベル付け regime で STAC や他の SSOD 手法と比較してどうか?
主な発見
| Methods | Backbone | 1% COCO | 2% COCO | 5% COCO | 10% COCO | 100% COCO |
|---|---|---|---|---|---|---|
| Supervised | R50-FPN | 9.05 ± 0.16 | 12.70 ± 0.15 | 18.47 ± 0.22 | 23.86 ± 0.81 | 37.63 |
| CSD † | R50-FPN | 10.20 ± 0.15 (+1.15) | 13.60 ± 0.10 (+0.90) | 18.90 ± 0.10 (+0.43) | 24.50 ± 0.15 (+0.64) | 38.87 (+1.24) |
| STAC [45] | R50-FPN | 13.97 ± 0.35 (+4.92) | 18.25 ± 0.25 (+5.55) | 24.38 ± 0.12 (+5.91) | 28.64 ± 0.21 (+4.78) | 39.21 (+1.58) |
| Instant-Teaching (ours) | R50-FPN | 16.00 ± 0.20 (+6.95) | 20.70 ± 0.30 (+8.00) | 25.50 ± 0.05 (+7.03) | 29.45 ± 0.15 (+5.59) | 39.60 (+1.97) |
| Instant-Teaching ∗ (ours) | R50-FPN | 18.05 ± 0.15 (+9.00) | 22.45 ± 0.15 (+9.75) | 26.75 ± 0.05 (+8.28) | 30.40 ± 0.05 (+6.54) | 40.20 (+2.57) |
- Instant-Teaching は STAC を MS-COCO のプロトコル全体で大きく上回る(例:1% ラベルデータ: 18.05 mAP vs 13.97; 2%: 22.45 vs 18.25)。
- Instant-Teaching ∗(共整あり)は 1%–2% COCO プロトコル全体で 18.05 から 22.45 mAP、最大で 30.40 mAP、 full COCO で 40.20 mAP を達成。
- VOC07 では、Instant-Teaching ∗ は VOC07 ラベル付きと VOC12 未ラベルデータを使用すると 44.64 から 50.00 mAP へ改善し、MS-COCO 未ラベルデータを用いると 50.80 mAP に達する。
- 強い拡張を Mixup と Mosaic で拡張すると、5% COCO の最良結果(25.60 mAP)が得られ、STAC の 23.14 mAP を上回る。
- 共整は学習を加速させ、2つのモデルが互いの予測を洗練させることで擬似アノテーションの品質を向上させ、確認バイアスを低減する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。