QUICK REVIEW

[논문 리뷰] Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

Yude Wang, Jie Zhang|arXiv (Cornell University)|2020. 04. 09.

Advanced Neural Network Applications참고 문헌 38인용 수 57

한 줄 요약

SEAM은 이미지-수준 감독 하에서 클래스 활성화 맵을 다듬기 위해 자기지도적 등가 규제와 픽셀 상관 모듈을 도입, PASCAL VOC 2012에서 약지도 의미론적 분할의 최첨단을 달성한다.

ABSTRACT

Image-level weakly supervised semantic segmentation is a challenging problem that has been deeply studied in recent years. Most of advanced solutions exploit class activation map (CAM). However, CAMs can hardly serve as the object mask due to the gap between full and weak supervisions. In this paper, we propose a self-supervised equivariant attention mechanism (SEAM) to discover additional supervision and narrow the gap. Our method is based on the observation that equivariance is an implicit constraint in fully supervised semantic segmentation, whose pixel-level labels take the same spatial transformation as the input images during data augmentation. However, this constraint is lost on the CAMs trained by image-level supervision. Therefore, we propose consistency regularization on predicted CAMs from various transformed images to provide self-supervision for network learning. Moreover, we propose a pixel correlation module (PCM), which exploits context appearance information and refines the prediction of current pixel by its similar neighbors, leading to further improvement on CAMs consistency. Extensive experiments on PASCAL VOC 2012 dataset demonstrate our method outperforms state-of-the-art methods using the same level of supervision. The code is released online.

연구 동기 및 목표

의미론적 분할에서 전체 감독과 약한 감독 사이의 차이를 제시한다.
변환된 입력들 간 CAM의 일관성을 강제하기 위해 자기지도적 등가 규제를 제안한다.
맥락 정보를 반영한 친화도(연관성)로 CAM을 정제하는 픽셀 상관 모듈을 도입한다.
CAM를 학습시키기 위한 등가 교차 규제 손실을 갖는 시암 네트워크 아키텍처를 개발한다.
이미지 수준 레이블만을 사용하여 PASCAL VOC 2012에서 최첨단 성능을 입증한다.

제안 방법

공유 가중치 시암 네트워크에 등가 규제를 내재화하여 어파인 변환 하에서 CAM의 일관성을 강제한다(ER 손실).
자체 어텐션 유사 메커니즘을 사용하여 학습된 픽셀 친화도으로 CAM을 정제하는 픽셀 상관 모듈(PCM)을 통합한다.
분기 간의 등가 교차 규제(ECR) 손실을 통해 CAM 정제를 등가 감독과 융합한다.
추론 시 전경-배경 점수화와 배경 임계값으로 배경/전경 균형을 처리한다.
다중 레이블 소프트 마진 손실로 이미지 수준 레이블로 학습하고 ECR 손실에 OHEM을 보강하며; 선택적 CRF 후처리를 추가한다.

실험 결과

연구 질문

RQ1어파인 변환된 입력들 간 CAM의 일관성은 추가 주석 없이 WSSS에 대한 자기지도(Self-supervision)를 제공할 수 있는가?
RQ2약한 감독하에서 CAM의 안정성과 물체 모양과의 정합성을 픽셀 상관 모듈이 향상시키는가?
RQ3등가 규제와 PCM의 결합 효과가 CAM 품질과 분할 성능에 어떤 영향을 미치는가?
RQ4제안된 SEAM 프레임워크가 이미지 수준 레이블만으로 PASCAL VOC 2012에서 최첨단 결과를 달성할 수 있는가?
RQ5다양한 어파인 변환이 등가 규제의 효능에 어떻게 영향을 미치는가?

주요 결과

SEAM은 CAM 품질을 향상시키고 이미지 수준 감독에서 PASCAL VOC 2012의 baselines보다 더 높은 mIoU를 달성한다.
ER, PCM, OHEM 및 선택적 CRF를 포함한 전체 SEAM 파이프라인은 VOC 학습/확장 설정에서 최대 56.83% mIoU에 도달한다.
수정된 CAM을 AffinityNet 기반 가짜 라벨로 사용하면 VOC 학습 세트에서 63.61% mIoU를 얻어 강력한 전체-감독 분할 결과를 가능하게 한다.
SEAM은 이미지 수준 감독하에서 VOC 2012 테스트 세트에서 최첨단 성능을 달성하며, 보고된 표에서 검증 mIoU가 약 64.5, 테스트 mIoU가 65.7이다.
SEAM의 CAM은 낮은 활성화와 과활성화가 적고 다중 스케일 테스트에서도 더 일관된다.
PCM은 경계에 민감한 친화도를 학습하여 물체 활성화 커버리지를 더 완전하게 하고 모양의 정합성을 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.