[논문 리뷰] Segment Anything is A Good Pseudo-label Generator for Weakly Supervised Semantic Segmentation
본 논문은 약한 라벨로부터 도출된 Segment Anything Model(SAM) 입력 프롬프트를 활용해 약한 지도 학습 시나리오에서 고품질 의사 라벨을 생성하는 방법을 조사하고, PASCAL VOC 2012에서 우수한 성능을 보인다.
Weakly supervised semantic segmentation with weak labels is a long-lived ill-posed problem. Mainstream methods mainly focus on improving the quality of pseudo labels. In this report, we attempt to explore the potential of 'prompt to masks' from the powerful class-agnostic large segmentation model, segment-anything. Specifically, different weak labels are used as prompts to the segment-anything model, generating precise class masks. The class masks are utilized to generate pseudo labels to train the segmentation networks. We have conducted extensive experiments on PASCAL VOC 2012 dataset. Experiments demonstrate that segment-anything can serve as a good pseudo-label generator. The code will be made publicly available.
연구 동기 및 목표
- 픽셀 수준 주석이 비용이 많이 드는 문제를 해결하기 위한 약한 지도 의미론적 분할의 동기를 제시한다.
- 다양한 약한 주석을 프롬프트로 사용해 의사 라벨 생성기로서 SAM의 가능성을 조사한다.
- 다양한 프롬프트(이미지 수준 라벨, 포인트, 스크리블, 바운딩 박스)가 의사 라벨 품질과 최종 분할 성능에 미치는 영향을 정량적으로 평가한다.
- 주석 노력이 분할 정확도와의 최적 균형을 제공하는 프롬프트 유형과 구성 요소를 식별한다.
제안 방법
- 약한 주석을 정확한 객체 마스크로 변환해 분할 네트워크 학습용 의사 라벨로 활용하기 위해 SAM을 사용한다.
- 여러 프롬프트 유형을 탐색한다: 이미지 수준 라벨, 포인트, 스크리블, 바운딩 박스 및 이들의 변형(예: CAM에서의 샘플링, 반복 프롬 prompts, 음의 프롬 prompts)
- CAM 기반 포인트 프롬프트 전략 두 가지를 평가한다: 모든 신뢰 가능한 CAM 픽셀을 샘플링 vs 신뢰 가능한 픽셀만 샘플링; 의사 라벨 품질에 미치는 영향을 분석한다.
- SAM으로 생성된 마스크를 BLIP-2 분류와 함께 활용해 의사 라벨 생성을 정제하거나 분류한다.
- 다양한 주석 유형에 대한 의사 라벨 품질을 향상시키기 위한 반복 프롬프트 개선과 음의 프롬프트의 영향을 평가한다.
- 생성된 의사 라벨을 사용해 표준 분할 백본(ResNet-101으로 초기화된 DeepLab-v2)을 학습하고 PASCAL VOC 2012 성과를 보고한다.
실험 결과
연구 질문
- RQ1다양한 약한 라벨로 자극된 SAM이 의미론적 분할 모델 학습에 적합한 고품질 의사 라벨을 생성할 수 있는가?
- RQ2어떤 프롬프트 유형(이미지 수준 라벨, 포인트, 스크리블, 바운딩 박스)이 최상의 의사 라벨 품질과 다운스트림 분할 성능을 제공하는가?
- RQ3반복 프롬 prompting 또는 음의 프롬프트가 약한 지도에서 SAM 생성 마스크의 품질을 향상시키는가?
- RQ4PASCAL VOC 2012에서 SAM 기반 의사 라벨은 전통적 약한 지도 방법과 어떻게 비교되는가?
주요 결과
- 스크리블 프롬프트와 SAM의 조합이 가장 높은 의사 라벨 품질을 달성해 VOC 2012 학습 세트에서 89.7% mIoU, 테스트 세트에서 76.6% mIoU를 달성하며 DeepLab-v2 학습에 사용될 때 우수한 성능을 보여준다.
- 바운딩 박스 프롬프트와 SAM은 강력한 의사 라벨을 제공해 학습 세트에서 91.5% mIoU를 달성하고 테스트에서도 경쟁력 있는 성능을 보인다.
- 이미지 수준 라벨 및 CAM 유도 프롬프트의 SAM 기반 의사 라벨은 전통적 CAM 기반 방법보다 상당한 향상을 보이며, 예를 들어 이미지 수준 라벨 + SAM은 72.2%의 테스트 mIoU를 달성, 다수의 이전 방법보다 높다.
- 반복 프롬 prompting은 이미지 수준 프롕 prompts의 의사 라벨 품질을 일관되게 향상시키지 못하지만, 스크리블 프롬프트와 음수 포인터 구성에는 이점을 줄 수 있다.
- 포인트 프롬프트는 경쟁적인 결과를 낼 수 있지만(검증 69.0%, 테스트 68.7%), 일반적으로 스크리블 및 바운딩 박스 프롬프트의 SAM 실행에 비해 뒤처진다.
- 전반적으로 SAM은 PASCAL VOC 2012에서 약한 지도 의미론적 분할을 위한 강력한 의사 라벨 생성기로 입증되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.