[論文レビュー] Semi and Weakly Supervised Semantic Segmentation Using Generative Adversarial Network
この論文は、生成対向ネットワーク(GAN)を用いて半教師なし・弱教師なしの意味的セグメンテーションを実現する。ジェネレータが偽画像を作成して多クラスピクセル分類器(ディスクリミネータ)を正則化する。弱ラベルを用いた条件付けは、生成サンプルの品質と複数データセットにおけるセグメンテーション性能をさらに向上させる。
Semantic segmentation has been a long standing challenging task in computer vision. It aims at assigning a label to each image pixel and needs significant number of pixellevel annotated data, which is often unavailable. To address this lack, in this paper, we leverage, on one hand, massive amount of available unlabeled or weakly labeled data, and on the other hand, non-real images created through Generative Adversarial Networks. In particular, we propose a semi-supervised framework ,based on Generative Adversarial Networks (GANs), which consists of a generator network to provide extra training examples to a multi-class classifier, acting as discriminator in the GAN framework, that assigns sample a label y from the K possible classes or marks it as a fake sample (extra class). The underlying idea is that adding large fake visual data forces real samples to be close in the feature space, enabling a bottom-up clustering process, which, in turn, improves multiclass pixel classification. To ensure higher quality of generated images for GANs with consequent improved pixel classification, we extend the above framework by adding weakly annotated data, i.e., we provide class level information to the generator. We tested our approaches on several challenging benchmarking visual datasets, i.e. PASCAL, SiftFLow, Stanford and CamVid, achieving competitive performance also compared to state-of-the-art semantic segmentation method
研究の動機と目的
- 未ラベルデータを活用して深層セグメンテーションモデルを半教師あり設定で正則化する。
- ディスクリミネータがセグメンテーションのためのピクセルレベルの多クラス分類を行うGANの活用を探る。
- 生成サンプルの品質とセグメンテーション精度を向上させるため、画像レベルラベルで条件付けする弱教師ありの訓練を導入する。
- 提案フレームワークを複数の難易度の高いデータセットで評価し、最先端手法と比較する。
提案手法
- 標準のGANディスクリミネータを、K+1クラスの信頼度を出力する完全畳み込み多クラスピクセル分類器に置換する(Kは実クラス、1は偽クラス)。
- ジェネレータを訓練して、ディスクリミネータにピクセルへ実クラスラベルを割り当てさせる方向へ画像を生成すると同時に、トレーニングデータに似た現実的なサンプルを生成する。
- ディスクリミネータには3つのデータストリーム(ラベル付きデータ、ラベルなしデータ、生成データ)を用い、ピクセルごとのクロスエントロピー損失と偽データ項を適用する。
- 実データに対してlog(D(x))を最大化し、ラベル付きデータにはクロスエントロピーを最小化し、偽データにはlog(1−D(G(z)))を最小化する、半教師付き損失を定式化する。
- 画像レベルラベルlを用いてGとDを条件付けする条件付きGANによる弱教師あり拡張を提供し、生成画像へのラベル存在を強制し、画像レベルの監督でディスクリミネータを導く。
- 弱教師ありでは、生成器入力にone-hotクラスベクトルを結合してクラス条件付き画像を作成し、損失を画像レベルのラベル整合性を含むように適合させる。
実験結果
リサーチクエスチョン
- RQ1ラベルなしデータとGANによる合成サンプルは、完全教師ありトレーニングと比較してピクセルレベルの意味的セグメンテーション性能を改善できるか。
- RQ2弱い画像レベルラベルでの条件付けが生成サンプルの品質と下流のセグメンテーション性能をさらに改善するか。
- RQ3標準ベンチマーク(VOC 2012, SiftFlow, StanfordBG, CamVid)における半教師ミ・弱教師付きGANベースのフレームワークは、最先端手法と比べてどうであるか。
主な発見
- VOC 2012 valで半教師あり訓練はピクセル精度が90.5、平均精度が80.7、mean IUが64.1となり、完全教師ありベースラインの89.9/69.2/59.5を上回る。
- VOC 2012 valで30%の完全ラベルデータを使用した場合、半教師ありはmean IUを42.2、ピクセル精度を83.6へ向上させ、弱教師ありはmean IU 44.6、ピクセル精度 84.6となる。
- VOC 2012 valでは、弱教師ありがmean IUと平均精度の点で複数の最先端半教師あり手法を上回り、65.8 mean IUと91.3 ピクセル精度を達成。
- SiftFlowでは、半教師ありがmean IUを35.1、ピクセル精度を86.3へ改善し、完全教師ありベースラインの83.4/34.4を上回る。
- StanfordBGとCamVidにおいて、半教師ありおよび弱教師ありGANは完全教師ありのベースラインと競合他手法を上回り、平均精度とmean IUで顕著な改善を示す。
- 定性的な結果は、生成画像がデータセット特有の構造(例:下部の道路、上部の空など)を捉え、ディスクリミネータが意味のあるピクセルレベル特徴を学習するのに役立つことを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。