[論文レビュー] Expansion and Shrinkage of Localization for Weakly-Supervised Semantic Segmentation
この論文は、オフセット学習を用いた変形可能畳み込みを活用したExpansion and Shrinkage (ESOL) フレームワークを提案し、最初に CAM ベースの局所化を拡張して全体の対象をカバーし、次に収縮して精度を高めることで、VOC2012および COCO2014 における弱教師ありセマンティックセグメンテーションで最先端を達成する。
Generating precise class-aware pseudo ground-truths, a.k.a, class activation maps (CAMs), is essential for weakly-supervised semantic segmentation. The original CAM method usually produces incomplete and inaccurate localization maps. To tackle with this issue, this paper proposes an Expansion and Shrinkage scheme based on the offset learning in the deformable convolution, to sequentially improve the recall and precision of the located object in the two respective stages. In the Expansion stage, an offset learning branch in a deformable convolution layer, referred as "expansion sampler" seeks for sampling increasingly less discriminative object regions, driven by an inverse supervision signal that maximizes image-level classification loss. The located more complete object in the Expansion stage is then gradually narrowed down to the final object region during the Shrinkage stage. In the Shrinkage stage, the offset learning branch of another deformable convolution layer, referred as "shrinkage sampler", is introduced to exclude the false positive background regions attended in the Expansion stage to improve the precision of the localization maps. We conduct various experiments on PASCAL VOC 2012 and MS COCO 2014 to well demonstrate the superiority of our method over other state-of-the-art methods for weakly-supervised semantic segmentation. Code will be made publicly available here https://github.com/TyroneLi/ESOL_WSSS.
研究の動機と目的
- 画像レベルのラベルを用いた CAM ベースの弱教師ありセマンティックセグメンテーションにおける部分的な局在化問題に対処する。
- 物体局在化のリコールを向上させ、次に精度を高めるための2段階のトレーニングパイプライン(Expansion → Shrinkage)を開発する。
- オフセット学習を伴う変形可能畳み込みを活用し、識別性の低い領域をサンプルし偽陽性を除外する。
- PASCAL VOC 2012 および MS COCO 2014 データセットで最先端の局在化とセグメンテーション性能を示す。
提案手法
- 特徴抽出器の後に expansion sampler deformable convolution を埋め込み、逆画像レベル監視の下でますます識別力の低い物体領域をサンプルするオフセットを学習する。
- Expansion の間に backbone features を凍結しつつ、画像レベル分類損失を最大化するような逆最適化信号を使用する。
- Shrinkage の前に Activation bias を緩和するため、Expansion 後に特徴クリッピング戦略を適用する。
- Shrinkage 段階で false positive 背景領域を除外する shrinkage sampler deformable convolution を導入し、分類損失と領域損失で学習する。
- CAM-seeds を IRN/other refinement methods で refined して疑似地上真実を生成し、DeepLab-v2-ResNet101 で最終セグメンテーションを訓練する。
実験結果
リサーチクエスチョン
- RQ1Expansion ステージは、最も識別性の高い領域を超えた対象物の全体範囲を回復できるか。
- RQ2Shrinkage ステージは偽陽性や背景領域を刈り込み、局在化の精度を高められるか。
- RQ3ESOL アプローチが VOC2012 および COCO2014 の弱教師ありセマンティックセグメンテーション性能に、最先端メソッドと比較してどのような影響を与えるか。
主な発見
- Expansion は元の CAM ベースラインに対して VOC2012 で約 5.2% の mIoU 改善をもたらす。
- refinement して、最終的な疑似地上真実はより高い mIoU スコアに達する(例:VOC2012 で PSA 使用時 66.4%、IRN 使用時 68.7%)。
- Explicit な顕著性キューを監視として使用した場合、VOC2012 バリデーション/テストのセグメンテーションは 71.1%/70.4% mIoU を達成。
- MS COCO 2014 バリデーションの mIoU は ESOL で 42.6% に達し、IRN を 1.2 ポイント上回る。
- VOC2012 での ESOL 初期シード(Seed mIoU)は refine 前に 53.6% (VOC) に改善し、いくつかの先行法を上回る。
- 総じて、ESOL は VOC2012 および COCO2014 で、現代の WSSS 手法に対して競争力のあるまたは優れた性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。