QUICK REVIEW

[논문 리뷰] An Alternative to WSSS? An Empirical Study of the Segment Anything Model (SAM) on Weakly-Supervised Semantic Segmentation Problems

Weixuan Sun, Zheyuan Liu|arXiv (Cornell University)|2023. 05. 02.

Machine Learning and Data Classification인용 수 15

한 줄 요약

본 논문은 Segment Anything Model(SAM)을 약지도레이블 생성기로 사용하여 약지도학적 의미분할(WSSS)을 수행하는 방식을 연구하고, PASCAL VOC 및 MS-COCO에서 전통적인 WSSS 방법과 비교하며 성능, 한계 및 실무적 시사점을 분석한다.

ABSTRACT

The Segment Anything Model (SAM) has demonstrated exceptional performance and versatility, making it a promising tool for various related tasks. In this report, we explore the application of SAM in Weakly-Supervised Semantic Segmentation (WSSS). Particularly, we adapt SAM as the pseudo-label generation pipeline given only the image-level class labels. While we observed impressive results in most cases, we also identify certain limitations. Our study includes performance evaluations on PASCAL VOC and MS-COCO, where we achieved remarkable improvements over the latest state-of-the-art methods on both datasets. We anticipate that this report encourages further explorations of adopting SAM in WSSS, as well as wider real-world applications.

연구 동기 및 목표

SAM이 클래스 레이블만으로 이미지 수준 WSSS의 의사 레이블 생성기로 작동할 수 있는지 탐색한다.
SAM 기반 의사 레이블의 품질을 표준 데이터셋에서 최첨단 WSSS 방법과 비교한다.
SAM의 WSSS에서의 한계(의미적 모호성 및 실무적 배치 고려사항)를 식별한다.
현실 세계 설정에서 SAM 주도 WSSS 파이프라인이 이점이 있는 시점을 제시한다.

제안 방법

Grounded-DINO를 사용하여 텍스트 프롬프트를 통해 이미지 수준 클래스를 접지된 바운딩 박스로 변환한다.
접지된 박스를 SAM(ViT-H)에 입력하여 인스턴스 분할 마스크를 얻는다.
SAM 마스크를 결합하여 학습용 의미 분할의 의사 레이블을 생성한다.
PASCAL VOC 및 MS-COCO에서 DeepLab-v2(ResNet-101)로 의사 레이블 품질과 하류 분할을 평가한다.
SAM 기반 의사 레이블 및 최종 분할을 다양한 이전 WSSS 방법 및 전체 감독과 비교한다.
계산 비용 및 데이터-정답 정렬성과 같은 실무적 고려사항을 논의한다.

Figure 1: SAM generated pseudo-labels compared to the ground-truth in PASCAL VOC. In most cases, SAM performs closely to the human annotations.

실험 결과

연구 질문

RQ1텍스트-접지 프롬프트로 안내된 SAM이 미세조정 없이도 WSSS를 위한 고품질 의사 레이블을 생성할 수 있는가?
RQ2SAM 기반 의사 레이블링이 PASCAL VOC 및 MS-COCO에서 최첨단 WSSS 방법과 어떻게 비교되는가?
RQ3WSSS에서 SAM을 사용할 때의 실무적 한계(예: 의미적 모호성, 자원 요구사항)는 무엇인가?
RQ4SAM 접근 방식이 표준 벤치마크에서 완전 감독 분할 성능에 근접할 수 있는가?

주요 결과

방법	장소	w/ saliency	Val	Test
NSRM	CVPR2021	✓	70.4	70.2
InferCam	WACV2022	✓	70.8	71.8
EDAM	CVPR2021	✓	70.9	70.6
EPS	CVPR2021	✓	71.0	71.8
DRS	AAAI2021	✓	71.2	71.4
L2G	CVPR2022	✓	72.1	71.7
Du et al.	CVPR2022	✓	72.6	73.6
PSA	CVPR2018	–	61.7	63.7
SEAM	CVPR2020	–	64.5	65.7
CDA	ICCV2021	–	66.1	66.8
ECS-Net	ICCV2021	–	66.6	67.6
Du et al.	CVPR2022	–	67.7	67.4
CPN	ICCV2021	–	67.8	68.5
AdvCAM	CVPR2021	–	68.1	68.0
Kweon et al.	ICCV2021	–	68.4	68.2
ReCAM	CVPR2022	–	68.5	68.4
SIPE	CVPR2022	–	68.8	69.7
URN	AAAI2022	–	69.5	69.7
ESOL	NeurIPS2022	–	69.9	69.3
PMM	ICCV2021	–	70.0	70.5
VWL-L	IJCV2022	–	70.6	70.7
Lee et al.	CVPR2022	–	70.7	70.1
MCTformer	CVPR2022	–	71.9	71.6
OCR	CVPR2023	–	72.7	72.0
CLIP-ES	CVPR2023	–	73.8	73.9
SAM	–	–	77.2	77.1
full-supervision	–	–	77.7	79.7

SAM 의사 레이블은 PASCAL VOC train에서 88.3 mIoU를 달성하여 이전 WSSS 방법보다 13.3 mIoU 향상이다.
SAM 기반 최종 분할은 PASCAL VOC에서 77.2 mIoU(Val) 및 77.1 mIoU(Test)로 이전 SOTA 방법을 능가한다.
MS-COCO에서 SAM은 의사 레이블 mIoU 66.8 및 최종 분할 55.6 mIoU를 달성하며 기존 WSSS 방법보다 크게 우수하다.
SAM은 미세조정 없이도 경쟁력 있는 성능을 보여 기초 모델 기반 WSSS 대안으로서 잠재력을 강조한다.
본 연구는 의미적 모호성을 한계로 지적하며, SAM의 입자화(segmentation granularity)가 인간 주석과 다를 수 있어 계층적 프롬프트가 향후 연구로 제안된다.
SAM은 대규모(잠재적으로 완전 표기 데이터)로 학습되어 WSSS와의 엄밀한 공정 비교는 아니지만 실용적이고 간소화된 WSSS 대안을 제공한다.

Figure 2: We observe that in some cases SAM performs better than the human annotated ground-truth. Notably, SAM is able to capture crisp boundaries, more detailed structures and finer-grained semantic classes.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.