QUICK REVIEW

[논문 리뷰] Segment Anything Model (SAM) Enhanced Pseudo Labels for Weakly Supervised Semantic Segmentation

Tianle Chen, Zheda Mai|arXiv (Cornell University)|2023. 05. 09.

Advanced Neural Network Applications인용 수 36

한 줄 요약

본 논문은 CAM으로 도출된 의사레이블을 시드로 사용하여 SAM 마스크를 선택하고 합치는 간단한 방법 SEPL을 제안합니다. 이를 통해 클래스 인식(class-aware) 및 객체 인식(object-aware) 의사레이블을 생성하고 VOC 2012 및 MS COCO 2014에서 WSSS 성능을 일관되게 향상시킵니다.

ABSTRACT

Weakly supervised semantic segmentation (WSSS) aims to bypass the need for laborious pixel-level annotation by using only image-level annotation. Most existing methods rely on Class Activation Maps (CAM) to derive pixel-level pseudo-labels and use them to train a fully supervised semantic segmentation model. Although these pseudo-labels are class-aware, indicating the coarse regions for particular classes, they are not object-aware and fail to delineate accurate object boundaries. To address this, we introduce a simple yet effective method harnessing the Segment Anything Model (SAM), a class-agnostic foundation model capable of producing fine-grained instance masks of objects, parts, and subparts. We use CAM pseudo-labels as cues to select and combine SAM masks, resulting in high-quality pseudo-labels that are both class-aware and object-aware. Our approach is highly versatile and can be easily integrated into existing WSSS methods without any modification. Despite its simplicity, our approach shows consistent gain over the state-of-the-art WSSS methods on both PASCAL VOC and MS-COCO datasets.

연구 동기 및 목표

WSSS에서 의사레이블의 품질을 향상시키기 위해 객체 인식이 아닌 클래스 인식에만 의존하지 않고 객체 인식도 갖추도록 만드는 목표.
Segment Anything Model(SAM)을 활용해 의사레이블에 정확한 객체 경계를 주입합니다.
기존 WSSS 방법을 수정하지 않고도 쉽게 적용 가능한 경량의 플러그앤 플레이 SEPL 접근법을 개발합니다.
기존 WSSS 기준 벤치마크(PASCAL VOC 2012 및 MS COCO 2014)에서 기존 WSSS baselines를 사용하여 개선을 입증합니다.

제안 방법

SEPL은 각 클래스에 대한 CAM 유도 의사레이블을 시드로, 이미지에 대한 SAM 마스크 모음을 사용합니다.
마스크는 CAM 의사레이블과의 최댓값 겹침 비율이 큰 클래스에 할당됩니다(마스크 할당).
다음으로 두 겹침 지표를 기반으로 마스크를 선택합니다: o_s(마스크가 의사레이블과 겹치는 비율)와 o_p(의사레이블이 마스크에 의해 겹치는 비율).
o_s > 0.5 또는 o_p > 0.85인 경우 마스크를 보존합니다. 반면, 적용 가능한 SAM 마스크가 없으면 초기 CAM 의사레이블을 보존합니다.
선택된 마스크를 OR-병합하여 최종 향상된 클래스 의사레이블을 얻고, 0이 아닌 영역에 클래스 라벨을 할당합니다.
SEPL은 기존 WSSS 파이프라인에 핵심 방법을 수정 없이 쉽게 통합되도록 설계되었습니다.

Figure 1 : Illustration of how SAM addresses partial and false activation on PASCAL VOC 2012 train set: (A) original images; (B) pseudo-labels generated by a SOTA image-level WSSS method, CLIMS [ 50 ] ; (C) masks from SAM; (D) SAM enhanced pseudo-labels; (E) ground-truth labels.

실험 결과

연구 질문

RQ1클래스에 상관없는 SAM 마스크가 클래스 인식 CAM 의사레이블에 의해 안내될 때, WSSS를 위한 더 높은 품질의 객체 인식 의사레이블을 생성할 수 있을까요?
RQ2SEPL 개선 의사레이블이 이러한 레이블로 학습된 하위 의미 분할에서 VOC 2012 및 COCO 2014에서 측정 가능한 개선을 이끌어낼까요?
RQ3다양한 기반 WSSS 방법과 데이터셋에서 SEPL이 얼마나 강건합니까?
RQ4SEPL의 실패 모드는 무엇이며 이를 어떻게 완화할 수 있을까요?

주요 결과

SEPL은 VOC 2012와 COCO 2014의 다수의 최첨단 WSSS 기반에서 의사레이블 품질을 일관되게 향상시킵니다.
SEPL-향상 의사레이블로 DeepLab V2(ResNet-101)를 학습시킨 경우 Recurseed, L2G, CLIPES, RCA, EPS, CLIMS, TransCAM, PPC+EPS, PPC+SEAM, SIPE, PuzzleCAM 등의 여러 기반에서 원래 의사레이블을 사용할 때보다 IoU가 더 높습니다.
VOC 2012 train에서 SEPL은 열한 개의 기준선에 대해 의사레이블 품질의 평균 이득을 5.33% 달성; MS COCO 2014 train에서 평균 이득은 3.12%입니다.
SEPL은 기존 WSSS 방법의 변경 없이도 개선을 보여주어 its 다양성과 실용성을 강조합니다.
본 연구는 WSSS 맥락에서 SAM 적용을 처음으로 탐구한 연구로, CV 과제에서 세분화 기초 모델의 더 넓은 활용 가능성을 시사합니다.

Figure 2 : Illustration of the SEPL pipeline. SEPL comprises two stages, mask assignment and mask selection. Based on the intersection between each SAM mask and pseudo-labels, a mask is assigned to the class with the largest intersection. For each mask, two metrics are computed: $o_{s}$ , the fracti

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.