Skip to main content
QUICK REVIEW

[論文レビュー] An Alternative to WSSS? An Empirical Study of the Segment Anything Model (SAM) on Weakly-Supervised Semantic Segmentation Problems

Weixuan Sun, Zheyuan Liu|arXiv (Cornell University)|May 2, 2023
Machine Learning and Data Classification被引用数 15
ひとこと要約

この論文は、Segment Anything Model (SAM) を弱教師付きセマンティックセグメンテーションの疑似ラベル生成器として用いることを調査し、従来の WSSS 手法と PASCAL VOC および MS-COCO で比較します。性能・限界・実務的含意を分析します。

ABSTRACT

The Segment Anything Model (SAM) has demonstrated exceptional performance and versatility, making it a promising tool for various related tasks. In this report, we explore the application of SAM in Weakly-Supervised Semantic Segmentation (WSSS). Particularly, we adapt SAM as the pseudo-label generation pipeline given only the image-level class labels. While we observed impressive results in most cases, we also identify certain limitations. Our study includes performance evaluations on PASCAL VOC and MS-COCO, where we achieved remarkable improvements over the latest state-of-the-art methods on both datasets. We anticipate that this report encourages further explorations of adopting SAM in WSSS, as well as wider real-world applications.

研究の動機と目的

  • SAM がクラスラベルのみを使用して画像レベルの WSSS の疑似ラベル生成器として機能するかを検討する。
  • SAM ベースの疑似ラベル品質を標準データセット上の最先端 WSSS 手法と比較する。
  • セマンティックな不明瞭さや実用的展開の考慮を含む、WSSS における SAM の制限を特定する。
  • 実世界の設定で SAM 主導の WSSS パイプラインが有利となる場合の指針を提供する。

提案手法

  • Grounded-DINO を用いて画像レベルのクラスラベルをテキストプロンプト経由で grounded バウンディングボックスへ変換する。
  • grounded ボックスを SAM (ViT-H) に投入しインスタンスセグメンテーションマスクを取得する。
  • SAM マスクを組み合わせてトレーニング用のセマンティックセグメンテーション疑似ラベルを生成する。
  • PASCAL VOC と MS-COCO で DeepLab-v2 (ResNet-101) による疑似ラベル品質と下流セグメンテーションを評価する。
  • SAM ベースの疑似ラベルと最終セグメンテーションを、以前の WSSS 手法の範囲および完全監視と比較する。
  • 計算コストやデータ-真値アライメントといった実用的考慮事項を議論する。
Figure 1: SAM generated pseudo-labels compared to the ground-truth in PASCAL VOC. In most cases, SAM performs closely to the human annotations.
Figure 1: SAM generated pseudo-labels compared to the ground-truth in PASCAL VOC. In most cases, SAM performs closely to the human annotations.

実験結果

リサーチクエスチョン

  • RQ1SAM がテキスト-grounded プ prompts に guided されて、ファインチューニングなしで WSSS の高品質な疑似ラベルを生成できるか?
  • RQ2SAM ベースの疑似ラベル化は PASCAL VOC および MS-COCO で最先端の WSSS 手法とどう比較されるか?
  • RQ3WSSS における SAM の実務的制限(例:セマンティックの obscurity、リソース要件)は何か?
  • RQ4SAM アプローチは標準ベンチマークで完全監視セグメンテーションの性能に近づくことができるか?

主な発見

手法会場顕著性つき検証用(Val)テスト
NSRMCVPR202170.470.2
InferCamWACV202270.871.8
EDAMCVPR202170.970.6
EPSCVPR202171.071.8
DRSAAAI202171.271.4
L2GCVPR202272.171.7
Du et al.CVPR202272.673.6
PSACVPR201861.763.7
SEAMCVPR202064.565.7
CDAICCV202166.166.8
ECS-NetICCV202166.667.6
Du et al.CVPR202267.767.4
CPNICCV202167.868.5
AdvCAMCVPR202168.168.0
Kweon et al.ICCV202168.468.2
ReCAMCVPR202268.568.4
SIPECVPR202268.869.7
URNAAAI202269.569.7
ESOLNeurIPS202269.969.3
PMMICCV202170.070.5
VWL-LIJCV202270.670.7
Lee et al.CVPR202270.770.1
MCTformerCVPR202271.971.6
OCRCVPR202372.772.0
CLIP-ESCVPR202373.873.9
SAM77.277.1
full-supervision77.779.7
  • SAM 疑似ラベルは PASCAL VOC train で 88.3 mIoU を達成し、従来の WSSS 手法を 13.3 mIoU 上回る。
  • SAM ベースの最終セグメンテーションは PASCAL VOC の val で 77.2 mIoU、test で 77.1 mIoU を達成し、従来の SOTA 手法を上回る。
  • MS-COCO では SAM は 疑似ラベル mIoU 66.8、最終セグメンテーション 55.6 mIoU を達成し、既存の WSSS 手法を大幅に上回る。
  • ファインチューニングなしでも SAM は競争力のある性能を示し、基盤モデルベースの WSSS 代替としての可能性を示唆する。
  • 本研究はセマンティック obscurity を限界として指摘しており、SAM の粒度が人間の注釈と異なる可能性があることから階層的プロンプトを将来の課題として提案する。
  • SAM は大規模な、潜在的には完全にラベル付きデータで訓練されているため WSSS への厳密な公正比較とはいえないが、実用的で合理的な WSSS 代替案を提供する。
Figure 2: We observe that in some cases SAM performs better than the human annotated ground-truth. Notably, SAM is able to capture crisp boundaries, more detailed structures and finer-grained semantic classes.
Figure 2: We observe that in some cases SAM performs better than the human annotated ground-truth. Notably, SAM is able to capture crisp boundaries, more detailed structures and finer-grained semantic classes.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。