QUICK REVIEW

[論文レビュー] PseudoSeg: Designing Pseudo Labels for Semantic Segmentation

Yuliang Zou, Zizhao Zhang|arXiv (Cornell University)|Oct 19, 2020

Advanced Neural Network Applications参考文献 55被引用数 51

ひとこと要約

PseudoSegは、デコーダとGrad-CAMに基づくマップから融合された適切に校正されたソフト偽ラベルを用いる、1段階の半教師ありフレームワークを導入し、ラベルなしまたは弱ラベルデータを用いたセマンティックセグメンテーションを改善します。VOC2012とCOCOで、少データおよび高データレジームの双方の利得を示します。

ABSTRACT

Recent advances in semi-supervised learning (SSL) demonstrate that a combination of consistency regularization and pseudo-labeling can effectively improve image classification accuracy in the low-data regime. Compared to classification, semantic segmentation tasks require much more intensive labeling costs. Thus, these tasks greatly benefit from data-efficient training methods. However, structured outputs in segmentation render particular difficulties (e.g., designing pseudo-labeling and augmentation) to apply existing SSL strategies. To address this problem, we present a simple and novel re-design of pseudo-labeling to generate well-calibrated structured pseudo labels for training with unlabeled or weakly-labeled data. Our proposed pseudo-labeling strategy is network structure agnostic to apply in a one-stage consistency training framework. We demonstrate the effectiveness of the proposed pseudo-labeling strategy in both low-data and high-data regimes. Extensive experiments have validated that pseudo labels generated from wisely fusing diverse sources and strong data augmentation are crucial to consistency training for segmentation. The source code is available at https://github.com/googleinterns/wss.

研究の動機と目的

ピクセルレベルのラベルへの依存を、ラベルなしまたは弱くラベル付けされたデータを活用することで低減する。
セグメンテーション出力のノイズに強い、適切に校正された構造化偽ラベルを設計する。
既存のセグメンテーションアーキテクチャに統合可能な、ネットワークに依存しないフレームワークを作成する。
標準ベンチマーク（VOC12、COCO）で、少データレジームと多データレジームの双方で有効性を示す。
セグメンテーションの SSL におけるデータ拡張とクロスソースフュージョンの役割を調査する。

提案手法

ピクセルラベル付きデータの教師あり損失と、 unlabeled データに対する整合性損失を組み合わせた一段階の学習目的を提案する。
デコーダ予測と自己注意型 Grad-CAM (SGC) マップを融合して構造化偽ラベルを生成する。
結合予測を正規化・鮮明化してソフト偽ラベルを生成する、校正済みのフュージョン関数を使用する。
強い拡張を施した予測を、校正済みのソフト偽ラベルに合わせるようモデルを訓練する。
Grad-CAM を image-level Grad-CAMs に置換し、分類器の監視を強化して Image-level ラベルを組み込む。

実験結果

リサーチクエスチョン

RQ1多様なソースから得られる、適切に校正されたソフト偽ラベルは、セマンティックセグメーションの整合性トレーニングを改善できるか。
RQ2デコーダ出力とGrad-CAMベースの局所化を、校正済みスキームで融合することは、いずれのソース単独より良い偽ラベルを生むか。
RQ3データ拡張の強さとバックボーンが、セグメンテーションの SSL パフォーマンスにどう影響するか。
RQ4提案する一段階フレームワークは、ピクセルレベル＋ unlabeled データと、ピクセルレベル＋ image-level ラベルデータの両方で有効か。
RQ5ソフト偽ラベルとハード偽ラベル、および温度鋭化が、セグメンテーションの校正と精度に与える影響は何か。

主な発見

提案手法 PseudoSeg は、ピクセルレベルラベルと unlabeled データを用いた場合、VOC12 および COCO で強力な教師ありベースラインを一貫して上回る。
デコーダ予測と SGC マップの校正融合は、いずれのソース単独よりも優れた偽ラベルを生み出し、ECE が低いなど良好な校正を示す。
ソフト偽ラベルと温度鋭化を用いると、ハード偽ラベルや閾値処理より性能が向上する。
複数のデータスプリットで、ピクセルレベル＋ unlabeled データおよびピクセルレベル＋ image-level データの組み合わせでVOC12における最先端の結果を達成。
強力な拡張とハイパーカラム機能が性能を高め、ResNet-50、ResNet-101、Xception-65 にまたがってバックボーンに対して頑健である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。