[논문 리뷰] An Alternative to WSSS? An Empirical Study of the Segment Anything Model (SAM) on Weakly-Supervised Semantic Segmentation Problems
본 논문은 Segment Anything Model(SAM)을 약지도레이블 생성기로 사용하여 약지도학적 의미분할(WSSS)을 수행하는 방식을 연구하고, PASCAL VOC 및 MS-COCO에서 전통적인 WSSS 방법과 비교하며 성능, 한계 및 실무적 시사점을 분석한다.
The Segment Anything Model (SAM) has demonstrated exceptional performance and versatility, making it a promising tool for various related tasks. In this report, we explore the application of SAM in Weakly-Supervised Semantic Segmentation (WSSS). Particularly, we adapt SAM as the pseudo-label generation pipeline given only the image-level class labels. While we observed impressive results in most cases, we also identify certain limitations. Our study includes performance evaluations on PASCAL VOC and MS-COCO, where we achieved remarkable improvements over the latest state-of-the-art methods on both datasets. We anticipate that this report encourages further explorations of adopting SAM in WSSS, as well as wider real-world applications.
연구 동기 및 목표
- SAM이 클래스 레이블만으로 이미지 수준 WSSS의 의사 레이블 생성기로 작동할 수 있는지 탐색한다.
- SAM 기반 의사 레이블의 품질을 표준 데이터셋에서 최첨단 WSSS 방법과 비교한다.
- SAM의 WSSS에서의 한계(의미적 모호성 및 실무적 배치 고려사항)를 식별한다.
- 현실 세계 설정에서 SAM 주도 WSSS 파이프라인이 이점이 있는 시점을 제시한다.
제안 방법
- Grounded-DINO를 사용하여 텍스트 프롬프트를 통해 이미지 수준 클래스를 접지된 바운딩 박스로 변환한다.
- 접지된 박스를 SAM(ViT-H)에 입력하여 인스턴스 분할 마스크를 얻는다.
- SAM 마스크를 결합하여 학습용 의미 분할의 의사 레이블을 생성한다.
- PASCAL VOC 및 MS-COCO에서 DeepLab-v2(ResNet-101)로 의사 레이블 품질과 하류 분할을 평가한다.
- SAM 기반 의사 레이블 및 최종 분할을 다양한 이전 WSSS 방법 및 전체 감독과 비교한다.
- 계산 비용 및 데이터-정답 정렬성과 같은 실무적 고려사항을 논의한다.

실험 결과
연구 질문
- RQ1텍스트-접지 프롬프트로 안내된 SAM이 미세조정 없이도 WSSS를 위한 고품질 의사 레이블을 생성할 수 있는가?
- RQ2SAM 기반 의사 레이블링이 PASCAL VOC 및 MS-COCO에서 최첨단 WSSS 방법과 어떻게 비교되는가?
- RQ3WSSS에서 SAM을 사용할 때의 실무적 한계(예: 의미적 모호성, 자원 요구사항)는 무엇인가?
- RQ4SAM 접근 방식이 표준 벤치마크에서 완전 감독 분할 성능에 근접할 수 있는가?
주요 결과
| 방법 | 장소 | w/ saliency | Val | Test |
|---|---|---|---|---|
| NSRM | CVPR2021 | ✓ | 70.4 | 70.2 |
| InferCam | WACV2022 | ✓ | 70.8 | 71.8 |
| EDAM | CVPR2021 | ✓ | 70.9 | 70.6 |
| EPS | CVPR2021 | ✓ | 71.0 | 71.8 |
| DRS | AAAI2021 | ✓ | 71.2 | 71.4 |
| L2G | CVPR2022 | ✓ | 72.1 | 71.7 |
| Du et al. | CVPR2022 | ✓ | 72.6 | 73.6 |
| PSA | CVPR2018 | – | 61.7 | 63.7 |
| SEAM | CVPR2020 | – | 64.5 | 65.7 |
| CDA | ICCV2021 | – | 66.1 | 66.8 |
| ECS-Net | ICCV2021 | – | 66.6 | 67.6 |
| Du et al. | CVPR2022 | – | 67.7 | 67.4 |
| CPN | ICCV2021 | – | 67.8 | 68.5 |
| AdvCAM | CVPR2021 | – | 68.1 | 68.0 |
| Kweon et al. | ICCV2021 | – | 68.4 | 68.2 |
| ReCAM | CVPR2022 | – | 68.5 | 68.4 |
| SIPE | CVPR2022 | – | 68.8 | 69.7 |
| URN | AAAI2022 | – | 69.5 | 69.7 |
| ESOL | NeurIPS2022 | – | 69.9 | 69.3 |
| PMM | ICCV2021 | – | 70.0 | 70.5 |
| VWL-L | IJCV2022 | – | 70.6 | 70.7 |
| Lee et al. | CVPR2022 | – | 70.7 | 70.1 |
| MCTformer | CVPR2022 | – | 71.9 | 71.6 |
| OCR | CVPR2023 | – | 72.7 | 72.0 |
| CLIP-ES | CVPR2023 | – | 73.8 | 73.9 |
| SAM | – | – | 77.2 | 77.1 |
| full-supervision | – | – | 77.7 | 79.7 |
- SAM 의사 레이블은 PASCAL VOC train에서 88.3 mIoU를 달성하여 이전 WSSS 방법보다 13.3 mIoU 향상이다.
- SAM 기반 최종 분할은 PASCAL VOC에서 77.2 mIoU(Val) 및 77.1 mIoU(Test)로 이전 SOTA 방법을 능가한다.
- MS-COCO에서 SAM은 의사 레이블 mIoU 66.8 및 최종 분할 55.6 mIoU를 달성하며 기존 WSSS 방법보다 크게 우수하다.
- SAM은 미세조정 없이도 경쟁력 있는 성능을 보여 기초 모델 기반 WSSS 대안으로서 잠재력을 강조한다.
- 본 연구는 의미적 모호성을 한계로 지적하며, SAM의 입자화(segmentation granularity)가 인간 주석과 다를 수 있어 계층적 프롬프트가 향후 연구로 제안된다.
- SAM은 대규모(잠재적으로 완전 표기 데이터)로 학습되어 WSSS와의 엄밀한 공정 비교는 아니지만 실용적이고 간소화된 WSSS 대안을 제공한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.