Skip to main content
QUICK REVIEW

[논문 리뷰] Joint Learning of Saliency Detection and Weakly Supervised Semantic Segmentation

Yu Zeng, Yunzhi Zhuge|arXiv (Cornell University)|2019. 09. 09.
Visual Attention and Saliency Detection참고 문헌 62인용 수 69
한 줄 요약

본 논문은 SSNet를 도입한다. SSNet은 샐리언시 탐지(saliency detection)와 약하게 지도된 의미 분할(weakly supervised semantic segmentation)을 엔드투엔드로 공동 학습하는 통합 다중 태스크 네트워크이며, 샐리언시 집계 모듈로 두 작업을 연결한다.

ABSTRACT

Existing weakly supervised semantic segmentation (WSSS) methods usually utilize the results of pre-trained saliency detection (SD) models without explicitly modeling the connections between the two tasks, which is not the most efficient configuration. Here we propose a unified multi-task learning framework to jointly solve WSSS and SD using a single network, \ie saliency, and segmentation network (SSNet). SSNet consists of a segmentation network (SN) and a saliency aggregation module (SAM). For an input image, SN generates the segmentation result and, SAM predicts the saliency of each category and aggregating the segmentation masks of all categories into a saliency map. The proposed network is trained end-to-end with image-level category labels and class-agnostic pixel-level saliency labels. Experiments on PASCAL VOC 2012 segmentation dataset and four saliency benchmark datasets show the performance of our method compares favorably against state-of-the-art weakly supervised segmentation methods and fully supervised saliency detection methods.

연구 동기 및 목표

  • 샐리언시 탐지(SD)와의 연결을 명시적으로 모델링함으로써 약하게 지도된 의미 분할(WSSS)을 개선하려는 동기를 부여한다.
  • 의미 분할과 샐리언시 맵을 공동으로 예측하는 엔드투엔드 네트워크를 개발한다.
  • 이미지 수준의 카테고리 레이블과 픽셀 수준의 샐리언시 주석을 활용하여 하나의 모델을 훈련한다.
  • 브리징 모듈을 통해 샐리언시 추론이 분할을 안내하고 그 반대도 가능하게 한다.

제안 방법

  • 세분화 네트워크(SN)와 샐리언시 집계 모듈(SAM)로 구성된 SSNet를 제안한다.
  • SAM은 카테고리별 샐리언시 점수를 예측하고 카테고리 마스크를 S = sum_i v_i * H_i로 합산하여 단일 샐리언시 맵으로 집계한다.
  • 두 단계로 훈련한다: 이미지 수준 레이블과 샐리언시 맵을 이용한 SSNet-1; SSNet-1으로부터 파생된 가짜 레이블과 샐리언시 맵을 이용한 SSNet-2.
  • 두 가지 손실을 사용한다: 이미지 수준 카테고리 감독용 L_c와 파생 샐리언시 맵을 실제 ground-truth와 일치시키기 위한 L_s1; 이후 보정을 위해 가짜 레이블과 함께 L_s2를 도입한다.
  • 특징 추출기로 DenseNet-169를 채택하고 해상도를 유지하기 위해 확장 수축 합성(convolutions)을 사용하되, 샐리언시 맵의 CRF 정제 외에는 분할 결과에 대한 후처리는 수행하지 않는다.

실험 결과

연구 질문

  • RQ1단일 네트워크가 샐리언시 탐지와 약하게 지도된 의미 분할을 효과적으로 동시에 수행할 수 있는가?
  • RQ2샐리언시 집계 모듈이 카테고리별 분할 마스크를 어떻게 연결하여 정확한 샐리언시 맵을 생성하는가?
  • RQ3다중 작업 학습이 단일 작업 WSSS 접근법에 비해 분할 성능을 향상시키는가?
  • RQ4이미지 수준 카테고리 레이블과 픽셀 수준 샐리언시 레이블을 함께 사용할 때 엔드투엔드 학습이 가능한가?
  • RQ5첫 단계 모델에서 생성된 가짜 레이블이 두 번째 학습 단계의 분할 성능을 further 개선하는가?

주요 결과

  • 제안된 SSNet-1은 이미지 수준 레이블과 샐리언시 맵으로 학습될 때 단일 작업 학습보다 분할 성능(mIOU)이 향상된다.
  • 가짜 레이블과 샐리언시 데이터를 사용하는 SSNet-2는 SSNet-1보다 분할 성능을 더욱 향상시킨다.
  • 공동 다중 작업 학습은 샐리언시 탐지에 해를 주지 않으며 벤치마크 데이터셋에서 경쟁력 있는 샐리언시 지표를 제공한다.
  • 엔드투엔드 프레임워크는 여러 약하게 지도된 분할 방법들보다 우수하며 일부 완전 지도 샐리언시 탐지기와 동등하거나 우수한 성능을 보인다.
  • 샐리언시 집계 모듈은 모든 카테고리의 분할 마스크를 효과적으로 연결하여 학습을 안내하는 카테고리 인식 샐리언시 맵을 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.