Skip to main content
QUICK REVIEW

[논문 리뷰] Segment Anything Model (SAM) Enhanced Pseudo Labels for Weakly Supervised Semantic Segmentation

Tianle Chen, Zheda Mai|arXiv (Cornell University)|2023. 05. 09.
Advanced Neural Network Applications인용 수 36
한 줄 요약

본 논문은 CAM으로 도출된 의사레이블을 시드로 사용하여 SAM 마스크를 선택하고 합치는 간단한 방법 SEPL을 제안합니다. 이를 통해 클래스 인식(class-aware) 및 객체 인식(object-aware) 의사레이블을 생성하고 VOC 2012 및 MS COCO 2014에서 WSSS 성능을 일관되게 향상시킵니다.

ABSTRACT

Weakly supervised semantic segmentation (WSSS) aims to bypass the need for laborious pixel-level annotation by using only image-level annotation. Most existing methods rely on Class Activation Maps (CAM) to derive pixel-level pseudo-labels and use them to train a fully supervised semantic segmentation model. Although these pseudo-labels are class-aware, indicating the coarse regions for particular classes, they are not object-aware and fail to delineate accurate object boundaries. To address this, we introduce a simple yet effective method harnessing the Segment Anything Model (SAM), a class-agnostic foundation model capable of producing fine-grained instance masks of objects, parts, and subparts. We use CAM pseudo-labels as cues to select and combine SAM masks, resulting in high-quality pseudo-labels that are both class-aware and object-aware. Our approach is highly versatile and can be easily integrated into existing WSSS methods without any modification. Despite its simplicity, our approach shows consistent gain over the state-of-the-art WSSS methods on both PASCAL VOC and MS-COCO datasets.

연구 동기 및 목표

  • WSSS에서 의사레이블의 품질을 향상시키기 위해 객체 인식이 아닌 클래스 인식에만 의존하지 않고 객체 인식도 갖추도록 만드는 목표.
  • Segment Anything Model(SAM)을 활용해 의사레이블에 정확한 객체 경계를 주입합니다.
  • 기존 WSSS 방법을 수정하지 않고도 쉽게 적용 가능한 경량의 플러그앤 플레이 SEPL 접근법을 개발합니다.
  • 기존 WSSS 기준 벤치마크(PASCAL VOC 2012 및 MS COCO 2014)에서 기존 WSSS baselines를 사용하여 개선을 입증합니다.

제안 방법

  • SEPL은 각 클래스에 대한 CAM 유도 의사레이블을 시드로, 이미지에 대한 SAM 마스크 모음을 사용합니다.
  • 마스크는 CAM 의사레이블과의 최댓값 겹침 비율이 큰 클래스에 할당됩니다(마스크 할당).
  • 다음으로 두 겹침 지표를 기반으로 마스크를 선택합니다: o_s(마스크가 의사레이블과 겹치는 비율)와 o_p(의사레이블이 마스크에 의해 겹치는 비율).
  • o_s > 0.5 또는 o_p > 0.85인 경우 마스크를 보존합니다. 반면, 적용 가능한 SAM 마스크가 없으면 초기 CAM 의사레이블을 보존합니다.
  • 선택된 마스크를 OR-병합하여 최종 향상된 클래스 의사레이블을 얻고, 0이 아닌 영역에 클래스 라벨을 할당합니다.
  • SEPL은 기존 WSSS 파이프라인에 핵심 방법을 수정 없이 쉽게 통합되도록 설계되었습니다.
Figure 1 : Illustration of how SAM addresses partial and false activation on PASCAL VOC 2012 train set: (A) original images; (B) pseudo-labels generated by a SOTA image-level WSSS method, CLIMS [ 50 ] ; (C) masks from SAM; (D) SAM enhanced pseudo-labels; (E) ground-truth labels.
Figure 1 : Illustration of how SAM addresses partial and false activation on PASCAL VOC 2012 train set: (A) original images; (B) pseudo-labels generated by a SOTA image-level WSSS method, CLIMS [ 50 ] ; (C) masks from SAM; (D) SAM enhanced pseudo-labels; (E) ground-truth labels.

실험 결과

연구 질문

  • RQ1클래스에 상관없는 SAM 마스크가 클래스 인식 CAM 의사레이블에 의해 안내될 때, WSSS를 위한 더 높은 품질의 객체 인식 의사레이블을 생성할 수 있을까요?
  • RQ2SEPL 개선 의사레이블이 이러한 레이블로 학습된 하위 의미 분할에서 VOC 2012 및 COCO 2014에서 측정 가능한 개선을 이끌어낼까요?
  • RQ3다양한 기반 WSSS 방법과 데이터셋에서 SEPL이 얼마나 강건합니까?
  • RQ4SEPL의 실패 모드는 무엇이며 이를 어떻게 완화할 수 있을까요?

주요 결과

  • SEPL은 VOC 2012와 COCO 2014의 다수의 최첨단 WSSS 기반에서 의사레이블 품질을 일관되게 향상시킵니다.
  • SEPL-향상 의사레이블로 DeepLab V2(ResNet-101)를 학습시킨 경우 Recurseed, L2G, CLIPES, RCA, EPS, CLIMS, TransCAM, PPC+EPS, PPC+SEAM, SIPE, PuzzleCAM 등의 여러 기반에서 원래 의사레이블을 사용할 때보다 IoU가 더 높습니다.
  • VOC 2012 train에서 SEPL은 열한 개의 기준선에 대해 의사레이블 품질의 평균 이득을 5.33% 달성; MS COCO 2014 train에서 평균 이득은 3.12%입니다.
  • SEPL은 기존 WSSS 방법의 변경 없이도 개선을 보여주어 its 다양성과 실용성을 강조합니다.
  • 본 연구는 WSSS 맥락에서 SAM 적용을 처음으로 탐구한 연구로, CV 과제에서 세분화 기초 모델의 더 넓은 활용 가능성을 시사합니다.
Figure 2 : Illustration of the SEPL pipeline. SEPL comprises two stages, mask assignment and mask selection. Based on the intersection between each SAM mask and pseudo-labels, a mask is assigned to the class with the largest intersection. For each mask, two metrics are computed: $o_{s}$ , the fracti
Figure 2 : Illustration of the SEPL pipeline. SEPL comprises two stages, mask assignment and mask selection. Based on the intersection between each SAM mask and pseudo-labels, a mask is assigned to the class with the largest intersection. For each mask, two metrics are computed: $o_{s}$ , the fracti

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.