[논문 리뷰] Expansion and Shrinkage of Localization for Weakly-Supervised Semantic Segmentation
이 논문은 변형 가능한 컨볼루션과 오프셋 학습을 사용하는 Expansion and Shrinkage (ESOL) 프레임워크를 제시하여 먼저 CAM 기반 로컬라이제이션을 확장해 전체 객체를 커버하고, 그다음 정확도를 다듬기 위해 축소하는 방식으로, VOC2012 및 COCO2014에서 약한 지도 학습 시맨틱 분할에서 최첨단 성능을 달성한다.
Generating precise class-aware pseudo ground-truths, a.k.a, class activation maps (CAMs), is essential for weakly-supervised semantic segmentation. The original CAM method usually produces incomplete and inaccurate localization maps. To tackle with this issue, this paper proposes an Expansion and Shrinkage scheme based on the offset learning in the deformable convolution, to sequentially improve the recall and precision of the located object in the two respective stages. In the Expansion stage, an offset learning branch in a deformable convolution layer, referred as "expansion sampler" seeks for sampling increasingly less discriminative object regions, driven by an inverse supervision signal that maximizes image-level classification loss. The located more complete object in the Expansion stage is then gradually narrowed down to the final object region during the Shrinkage stage. In the Shrinkage stage, the offset learning branch of another deformable convolution layer, referred as "shrinkage sampler", is introduced to exclude the false positive background regions attended in the Expansion stage to improve the precision of the localization maps. We conduct various experiments on PASCAL VOC 2012 and MS COCO 2014 to well demonstrate the superiority of our method over other state-of-the-art methods for weakly-supervised semantic segmentation. Code will be made publicly available here https://github.com/TyroneLi/ESOL_WSSS.
연구 동기 및 목표
- CAM 기반의 약한 지도 시맨틱 분할에서 이미지 수준 라벨의 부분 로컬라이제이션 문제를 해결한다.
- 객체 로컬라이제이션의 재현율을 높인 후 정확도를 개선하기 위한 두 단계 학습 파이프라인(Expansion then Shrinkage)을 개발한다.
- Offset 학습이 가능한 변형 가능한 컨볼루션을 활용하여 덜 판별적인 영역을 샘플링하고 False positives를 제외한다.
- PASCAL VOC 2012 및 MS COCO 2014 데이터셋에서 최첨단 로컬라이제이션 및 분할 성능을 보여준다.
제안 방법
- Feature extractor 뒤에 Expansion sampler deformable convolution을 삽입하여 이미지 수준 감독 하에서 점차 덜 판별적인 객체 영역을 샘플링하는 오프셋을 학습한다.
- Expansion 동안 백본 특징을 고정한 채 이미지 수준 분류 손실을 최대화하는 역 최적화 신호를 사용한다.
- Expansion 후 활성화 바이어스를 완화하기 위한 특징 클리핑 전략을 적용한다.
- Shrinkage 단계에서 False positive 배경 영역을 제외하기 위한 shrinkage sampler deformable convolution을 도입하고 분류 손실과 면적 손실로 학습시킨다.
- IRN/다른 정제 방법으로 CAM-seeds를 다듬어 의사 지상 Truth를 생성하고 최종 분할을 DeepLab-v2-ResNet101으로 학습한다.
실험 결과
연구 질문
- RQ1Expansion 단계가 가장 판별적인 영역을 넘어서 대상 객체의 전체 범위를 회복할 수 있는가?
- RQ2Shrinkage 단계가 False positive 및 배경 영역을 가지치며 로컬라이제이션 정밀도를 높일 수 있는가?
- RQ3ESOL 접근법이 VOC2012 및 COCO2014에서의 약한 지도 시맨틱 분할 성능에 대해 최첨단 방법들과 비교해 어떤 영향을 미치는가?
주요 결과
- Expansion은 원래 CAM 베 baseline 대비 VOC2012에서 초기 CAM 시드를 약 5.2% mIoU 개선한다.
- 정제(refinement)와 함께 최종 의사 지상 Truth의 mIoU가 더 높아지며(예: VOC2012에서 PSA로 66.4%, IRN으로 68.7%).
- VOC2012 검증/테스트 분할은 감독 신호로 명시적 시야(cue)를 사용할 때 각각 71.1%/70.4% mIoU를 달성한다.
- MS COCO 2014 검증 mIoU는 ESOL으로 42.6%에 도달하여 IRN보다 1.2포인트 앞선다.
- VOC2012에서 ESOL 초기 시드(Seed mIoU)가 정제 전에 53.6%로 향상되어 여러 선행 방법을 능가한다.
- 전반적으로 ESOL은 VOC2012와 COCO2014에서 동시대 WSSS 방법들과 경쟁력 있거나 우수한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.