QUICK REVIEW

[論文レビュー] ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation

Lihe Yang, Wei Zhuo|arXiv (Cornell University)|Jun 9, 2021

Advanced Neural Network Applications参考文献 58被引用数 21

ひとこと要約

本稿では、自己訓練における自己教師ありセマンティックセグメンテーションの性能を著しく向上させるため、強力なデータ拡張（SDA）を導入し、教師・生徒モデルの予測を分離し、ノイズの多い偽ラベルに対する耐性を高めるST++を提案する。さらに、包括的な予測安定性に基づく画像レベルの選択的再訓練を導入し、特に低ラベル状況下でも最先端の性能を達成した。反復的再訓練や複雑な構成を一切用いずに、従来手法を大きく上回った。

ABSTRACT

Self-training via pseudo labeling is a conventional, simple, and popular pipeline to leverage unlabeled data. In this work, we first construct a strong baseline of self-training (namely ST) for semi-supervised semantic segmentation via injecting strong data augmentations (SDA) on unlabeled images to alleviate overfitting noisy labels as well as decouple similar predictions between the teacher and student. With this simple mechanism, our ST outperforms all existing methods without any bells and whistles, e.g., iterative re-training. Inspired by the impressive results, we thoroughly investigate the SDA and provide some empirical analysis. Nevertheless, incorrect pseudo labels are still prone to accumulate and degrade the performance. To this end, we further propose an advanced self-training framework (namely ST++), that performs selective re-training via prioritizing reliable unlabeled images based on holistic prediction-level stability. Concretely, several model checkpoints are saved in the first stage supervised training, and the discrepancy of their predictions on the unlabeled image serves as a measurement for reliability. Our image-level selection offers holistic contextual information for learning. We demonstrate that it is more suitable for segmentation than common pixel-wise selection. As a result, ST++ further boosts the performance of our ST. Code is available at https://github.com/LiheYoung/ST-PlusPlus.

研究の動機と目的

ノイズの多いラベルへの一般化性能の欠如と予測の結合という課題を解決することで、古典的な自己訓練を自己教師ありセマンティックセグメンテーションの強力なベースラインに蘇らせること。
強力なデータ拡張（SDA）が教師モデルと生徒モデルの予測をどれほど分離し、ノイズの多い偽ラベルに対する耐性を向上させるかを検証すること。
信頼性の低い偽ラベルによる確認バイアスの問題を解消するため、予測安定性に基づいて信頼性の高い未ラベル画像を優先的に選択する再訓練メカニズムを提案すること。
セグメンテーションタスクにおいて、ピクセル単位の選択よりも画像単位の選択が、より良い文脈的一致性を提供するため、より効果的であることを示すこと。
反復的再訓練や手動のしきい値設定を一切不要としつつも、複雑な最先端手法を上回る、シンプルで効果的なフレームワークを確立すること。

提案手法

未ラベル画像に色ずれ、ぼかし、グレースケールなどの強力なデータ拡張（SDA）を適用することで、過学習を低減し、教師モデルと生徒モデルの予測を分離する、強力な自己訓練ベースライン（ST）を導入する。
ST++では2段階の訓練パイプラインを採用し、初期の教師あり訓練中にモデルのチェックポイントを保存する。その後、これらのチェックポイント間での予測差異を測定することで、未ラベル画像の予測の安定性と信頼性を評価する。
最も安定した（信頼性の高い）未ラベル画像を優先して最初の再訓練フェーズで処理する選択的再訓練を実施。高信頼度の偽ラベルを用いて生徒モデルを改善した後、残りの信頼性が低い画像を再ラベル付けする。
選択基準として画像レベルの安定性を採用。複数のモデルチェックポイントにおける変化する偽マスクの一貫性を評価することで、ピクセル単位の信頼度しきい値よりも包括的な文脈的情報を提供し、セグメンテーションタスクに適している。
信頼性の高い画像を最初に処理する段階的再訓練戦略を採用。これにより確認バイアスが低減され、未ラベルデータ全体の偽ラベル品質が向上する。
ハイパーパramータの選択に強く、50%および75%の選択率でも優れた性能を示し、オプションの反復的再訓練段階を追加することでさらなる向上が得られることを示した。

実験結果

リサーチクエスチョン

RQ1強力なデータ拡張を用いた単純な自己訓練フレームワークは、反復的再訓練や手動のしきい値設定を一切不要としつつも、複雑な最先端手法を上回る性能を達成できるか？
RQ2強力なデータ拡張は、教師モデルと生徒モデルの予測をどれほど分離し、ノイズの多い偽ラベルへの過学習をどれほど低減できるか？
RQ3セグメンテーションタスクにおいて、予測安定性に基づく画像レベルの選択が、ピクセル単位の選択よりも偽ラベル品質の向上に効果的であるか？
RQ4包括的な安定性に基づく選択的再訓練は、ランダムまたはワンステージの再訓練パイプラインよりも優れた性能をもたらすか？
RQ5安定した画像選択とSDAを組み合わせた、反復的でないシンプルなフレームワークでも、SOTA性能を達成できるか？

主な発見

強力なデータ拡張を用いた提案されたSTベースラインは、反復的再訓練や複雑な構成を一切用いずに、Pascal VOCで最先端の性能を達成し、従来手法を大きく上回った。
1/16ラベル状況（92枚）では、ST++が68.3%のmIoUを達成した。一方、ワンステージのSTベースラインは65.2%にとどまり、選択的再訓練の有効性が明確に示された。
ST++における画像レベルの選択的再訓練は、ランダムな二段階再訓練やピクセル単位の選択よりも一貫して優れており、1/4ラベル状況で75.4%のmIoUを達成した。対照的に、それぞれ74.7%および74.9%であった。
アブレーションスタディでは、最も安定した50%の画像を選択するだけで十分に効果的であり、75%選択で74.5%のmIoUにわずかに向上した。
選択率が25%、50%、75%のいずれであっても性能が安定しており、一般化性能の信頼性が示された。
オプションの第三段階再訓練により、1/4ラベル状況で75.2%のmIoUにさらなる向上が得られ、選択的かつ段階的な反復的最適化が有益であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。