Skip to main content
QUICK REVIEW

[논문 리뷰] An Alternative to WSSS? An Empirical Study of the Segment Anything Model (SAM) on Weakly-Supervised Semantic Segmentation Problems

Weixuan Sun, Zheyuan Liu|arXiv (Cornell University)|2023. 05. 02.
Machine Learning and Data Classification인용 수 15
한 줄 요약

본 논문은 Segment Anything Model(SAM)을 약지도레이블 생성기로 사용하여 약지도학적 의미분할(WSSS)을 수행하는 방식을 연구하고, PASCAL VOC 및 MS-COCO에서 전통적인 WSSS 방법과 비교하며 성능, 한계 및 실무적 시사점을 분석한다.

ABSTRACT

The Segment Anything Model (SAM) has demonstrated exceptional performance and versatility, making it a promising tool for various related tasks. In this report, we explore the application of SAM in Weakly-Supervised Semantic Segmentation (WSSS). Particularly, we adapt SAM as the pseudo-label generation pipeline given only the image-level class labels. While we observed impressive results in most cases, we also identify certain limitations. Our study includes performance evaluations on PASCAL VOC and MS-COCO, where we achieved remarkable improvements over the latest state-of-the-art methods on both datasets. We anticipate that this report encourages further explorations of adopting SAM in WSSS, as well as wider real-world applications.

연구 동기 및 목표

  • SAM이 클래스 레이블만으로 이미지 수준 WSSS의 의사 레이블 생성기로 작동할 수 있는지 탐색한다.
  • SAM 기반 의사 레이블의 품질을 표준 데이터셋에서 최첨단 WSSS 방법과 비교한다.
  • SAM의 WSSS에서의 한계(의미적 모호성 및 실무적 배치 고려사항)를 식별한다.
  • 현실 세계 설정에서 SAM 주도 WSSS 파이프라인이 이점이 있는 시점을 제시한다.

제안 방법

  • Grounded-DINO를 사용하여 텍스트 프롬프트를 통해 이미지 수준 클래스를 접지된 바운딩 박스로 변환한다.
  • 접지된 박스를 SAM(ViT-H)에 입력하여 인스턴스 분할 마스크를 얻는다.
  • SAM 마스크를 결합하여 학습용 의미 분할의 의사 레이블을 생성한다.
  • PASCAL VOC 및 MS-COCO에서 DeepLab-v2(ResNet-101)로 의사 레이블 품질과 하류 분할을 평가한다.
  • SAM 기반 의사 레이블 및 최종 분할을 다양한 이전 WSSS 방법 및 전체 감독과 비교한다.
  • 계산 비용 및 데이터-정답 정렬성과 같은 실무적 고려사항을 논의한다.
Figure 1: SAM generated pseudo-labels compared to the ground-truth in PASCAL VOC. In most cases, SAM performs closely to the human annotations.
Figure 1: SAM generated pseudo-labels compared to the ground-truth in PASCAL VOC. In most cases, SAM performs closely to the human annotations.

실험 결과

연구 질문

  • RQ1텍스트-접지 프롬프트로 안내된 SAM이 미세조정 없이도 WSSS를 위한 고품질 의사 레이블을 생성할 수 있는가?
  • RQ2SAM 기반 의사 레이블링이 PASCAL VOC 및 MS-COCO에서 최첨단 WSSS 방법과 어떻게 비교되는가?
  • RQ3WSSS에서 SAM을 사용할 때의 실무적 한계(예: 의미적 모호성, 자원 요구사항)는 무엇인가?
  • RQ4SAM 접근 방식이 표준 벤치마크에서 완전 감독 분할 성능에 근접할 수 있는가?

주요 결과

방법장소w/ saliencyValTest
NSRMCVPR202170.470.2
InferCamWACV202270.871.8
EDAMCVPR202170.970.6
EPSCVPR202171.071.8
DRSAAAI202171.271.4
L2GCVPR202272.171.7
Du et al.CVPR202272.673.6
PSACVPR201861.763.7
SEAMCVPR202064.565.7
CDAICCV202166.166.8
ECS-NetICCV202166.667.6
Du et al.CVPR202267.767.4
CPNICCV202167.868.5
AdvCAMCVPR202168.168.0
Kweon et al.ICCV202168.468.2
ReCAMCVPR202268.568.4
SIPECVPR202268.869.7
URNAAAI202269.569.7
ESOLNeurIPS202269.969.3
PMMICCV202170.070.5
VWL-LIJCV202270.670.7
Lee et al.CVPR202270.770.1
MCTformerCVPR202271.971.6
OCRCVPR202372.772.0
CLIP-ESCVPR202373.873.9
SAM77.277.1
full-supervision77.779.7
  • SAM 의사 레이블은 PASCAL VOC train에서 88.3 mIoU를 달성하여 이전 WSSS 방법보다 13.3 mIoU 향상이다.
  • SAM 기반 최종 분할은 PASCAL VOC에서 77.2 mIoU(Val) 및 77.1 mIoU(Test)로 이전 SOTA 방법을 능가한다.
  • MS-COCO에서 SAM은 의사 레이블 mIoU 66.8 및 최종 분할 55.6 mIoU를 달성하며 기존 WSSS 방법보다 크게 우수하다.
  • SAM은 미세조정 없이도 경쟁력 있는 성능을 보여 기초 모델 기반 WSSS 대안으로서 잠재력을 강조한다.
  • 본 연구는 의미적 모호성을 한계로 지적하며, SAM의 입자화(segmentation granularity)가 인간 주석과 다를 수 있어 계층적 프롬프트가 향후 연구로 제안된다.
  • SAM은 대규모(잠재적으로 완전 표기 데이터)로 학습되어 WSSS와의 엄밀한 공정 비교는 아니지만 실용적이고 간소화된 WSSS 대안을 제공한다.
Figure 2: We observe that in some cases SAM performs better than the human annotated ground-truth. Notably, SAM is able to capture crisp boundaries, more detailed structures and finer-grained semantic classes.
Figure 2: We observe that in some cases SAM performs better than the human annotated ground-truth. Notably, SAM is able to capture crisp boundaries, more detailed structures and finer-grained semantic classes.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.