[논문 리뷰] Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation
이 논문은 이미지 수준 라벨로 학습된 CNN인 AffinityNet을 도입하여 인접 좌표 간의 픽셀 수준 의미적 친화도(pixel-level affinities)를 예측하고, 이를 이용한 무작위 보행(random-walk) 기반 확산으로 CAM을 수정하고 추가 주석 없이 강력한 세그먼테이션 모델을 학습시키기 위한 세그먼테이션 라벨을 합성한다.
The deficiency of segmentation labels is one of the main obstacles to semantic segmentation in the wild. To alleviate this issue, we present a novel framework that generates segmentation labels of images given their image-level class labels. In this weakly supervised setting, trained models have been known to segment local discriminative parts rather than the entire object area. Our solution is to propagate such local responses to nearby areas which belong to the same semantic entity. To this end, we propose a Deep Neural Network (DNN) called AffinityNet that predicts semantic affinity between a pair of adjacent image coordinates. The semantic propagation is then realized by random walk with the affinities predicted by AffinityNet. More importantly, the supervision employed to train AffinityNet is given by the initial discriminative part segmentation, which is incomplete as a segmentation annotation but sufficient for learning semantic affinities within small image areas. Thus the entire framework relies only on image-level class labels and does not require any extra data or annotations. On the PASCAL VOC 2012 dataset, a DNN learned with segmentation labels generated by our method outperforms previous models trained with the same level of supervision, and is even as competitive as those relying on stronger supervision.
연구 동기 및 목표
- 세그멘테이션을 위한 픽셀 수준 주석의 부족을 이미지 수준 라벨을 활용해 해결한다.
- 지역 구별 반응을 전체 객체 영역으로 전파하기 위해 픽셀 수준 의미적 친화도를 학습한다.
- 세그멘테이션 네트워크를 학습시키는 데 사용할 수 있는 합성 세그먼테이션 라벨을 생성하는 엔드투엔드 프레임워크를 개발한다.
- 이미지 수준 감독하에 PASCAL VOC 2012에서 최첨단 성능을 보인다.
제안 방법
- 이미지 수준으로 학습된 분류기로부터 Class Activation Maps (CAMs)을 계산해 객체 영역의 시드를 만든다.
- 클래스 비의존적 목적 함수와 CAM 유도 감독을 사용하여 인접 좌표 간의 의미적 친화도 Wij를 예측하도록 AffinityNet를 학습한다.
- CAM과 dCRF 정제를 통해 자신감 있는 객체/배경 영역을 선택하여 신뢰할 수 있는 쌍방 친화도 라벨을 생성한다.
- 학습된 친화도 행렬을 이용한 무작위 보행으로 CAM을 전파해 CAM을 수정하고 향상된 세그먼테이션 제안을 얻는다.
- 수정된 CAM을 dCRF로 업스케일링 및 정제하여 세그먼테이션 네트워크를 학습하기 위한 합성 라벨을 합성한다.
- 합성 라벨로 최종 세그먼테이션 모델(예: Ours-ResNet38)을 학습한다.
실험 결과
연구 질문
- RQ1이미지 수준 라벨을 사용해 전체 객체 모양을 회복하는 데 도움이 되는 픽셀 수준 의미적 친화도를 학습할 수 있는가?
- RQ2학습된 친화도 모델이 무작위 보행을 통해 활성화 맵을 정확한 객체 경계로 확산시키는 데 얼마나 효과적인가?
- RQ3합성된 세그먼테이션 라벨이 약한 지도하에서 경쟁력 있는 세그멘테이션을 가능하게 하는가?
- RQ4약한 지도학습 성능이 PASCAL VOC 2012에서 완전 지도 기준에 얼마나 근접할 수 있는가?
주요 결과
- 이미지 수준 감독으로 학습된 AffinityNet이 의미 있는 픽셀 수준 친화도를 산출한다.
- AffinityNet를 이용한 무작위 보행은 CAM 기반 세그멘테이션 마스크를 크게 향상시킨다.
- 합성된 라벨은 세그멘테이션 네트워크를 학습시키는 데 사용되며, 이전의 이미지 수준 감독 방법보다 우수하고 더 강력한 감독과 경쟁력이 있다.
- Ours-ResNet38은 이전의 약한 지도 방법과 비교했을 때 PASCAL VOC 2012에서 강력한 성능을 달성한다.
- 이 접근법은 완전 감독 기준의 성능에 근접하여 성능의 상당 부분을 회복한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.