[論文レビュー] Segment Anything Model (SAM) Enhanced Pseudo Labels for Weakly Supervised Semantic Segmentation
この論文は SEPL を提案する。CAM由来の擬似ラベルを種として使用し、SAMマスクを選択・結合して、クラス認識と物体認識の擬似ラベルを生成し、VOC 2012 および MS COCO 2014 のWSSS性能を一貫して改善する。
Weakly supervised semantic segmentation (WSSS) aims to bypass the need for laborious pixel-level annotation by using only image-level annotation. Most existing methods rely on Class Activation Maps (CAM) to derive pixel-level pseudo-labels and use them to train a fully supervised semantic segmentation model. Although these pseudo-labels are class-aware, indicating the coarse regions for particular classes, they are not object-aware and fail to delineate accurate object boundaries. To address this, we introduce a simple yet effective method harnessing the Segment Anything Model (SAM), a class-agnostic foundation model capable of producing fine-grained instance masks of objects, parts, and subparts. We use CAM pseudo-labels as cues to select and combine SAM masks, resulting in high-quality pseudo-labels that are both class-aware and object-aware. Our approach is highly versatile and can be easily integrated into existing WSSS methods without any modification. Despite its simplicity, our approach shows consistent gain over the state-of-the-art WSSS methods on both PASCAL VOC and MS-COCO datasets.
研究の動機と目的
- WSSS における擬似ラベル品質を、単にクラス認識だけでなく物体認識にも対応させて改善する動機づけ。
- Segment Anything Model (SAM) を活用して擬似ラベルに正確な物体境界を注入する。
- 既存の WSSS 手法を改変することなく、軽量でプラグアンドプレイ可能な SEPL アプローチを開発する。
- 既存の WSSS ベースラインを用いた標準ベンチマーク(PASCAL VOC 2012 および MS COCO 2014)で改善をデモンストレーションする。
提案手法
- SEPL は各クラスの CAM由来の擬似ラベルをシードとして、画像中の SAM マスクのコレクションを用いる。
- マスクは CAM 擬似ラベルとの重複が最も大きいクラスに割り当てられる(マスク割り当て)。
- 次に、二つの重複指標でマスクを選択する:o_s(マスクが擬似ラベルと重なる割合)と o_p(擬似ラベルがマスクに重ねられている割合)。
- o_s > 0.5 または o_p > 0.85 でマスクを保持する。そうでない場合、SAMマスクが適用されない場合には初期 CAM 擬似ラベルを保持する。
- 最終的な強化擬似ラベルは、選択したマスクを ORマージして得られ、非零領域にクラスラベルを割り当てる。
- SEPL は既存の WSSS パイプラインへ、基盤手法を変更することなく容易に統合できるよう設計されている。
![Figure 1 : Illustration of how SAM addresses partial and false activation on PASCAL VOC 2012 train set: (A) original images; (B) pseudo-labels generated by a SOTA image-level WSSS method, CLIMS [ 50 ] ; (C) masks from SAM; (D) SAM enhanced pseudo-labels; (E) ground-truth labels.](https://ar5iv.labs.arxiv.org/html/2305.05803/assets/figures/fig1_update1.png)
実験結果
リサーチクエスチョン
- RQ1クラス非依存の SAM マスクが、クラス認識の CAM 擬似ラベルに導かれることで、WSSS のためにより高品質で物体認識対応の擬似ラベルを生み出せるか?
- RQ2SAM 強化擬似ラベルは、これらのラベルを用いて訓練された下流のセマンティックセグメンテーションで、VOC 2012 および COCO 2014 において測定可能な改善をもたらすか?
- RQ3SEPL は多様なベースライン WSSS 手法やデータセットに対してどれだけ頑健か?
- RQ4SEPL の失敗モードは何で、それをどう緩和できるか?
主な発見
- SEPL は VOC 2012 および COCO 2014 の複数の最先端 WSSS ベースラインに対して、擬似ラベル品質を一貫して改善する。
- SEPL 強化擬似ラベルで DeepLab V2 (ResNet-101) をトレーニングすると、元の擬似ラベルを使用した場合より IoU が高くなる(Recurseed, L2G, CLIPES, RCA, EPS, CLIMS, TransCAM, PPC+EPS, PPC+SEAM, SIPE, PuzzleCAM などのベースラインで)。
- VOC 2012 train で eleven ベースラインに対して擬似ラベル品質の平均増分は 5.33% を達成; MS COCO 2014 train では平均増分は 3.12% 。
- SEPL は既存の WSSS 手法を変更することなく改善を示しており、汎用性と実用性を強調する。
- 本研究は WSSS コンテキストで SAM の適用を初めて検討したものであり、CV タスクにおけるセグメンテーション基盤モデルのより広い活用の可能性を示唆する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。