QUICK REVIEW

[논문 리뷰] Joint Learning of Saliency Detection and Weakly Supervised Semantic Segmentation

Yu Zeng, Yunzhi Zhuge|arXiv (Cornell University)|2019. 09. 09.

Visual Attention and Saliency Detection참고 문헌 62인용 수 69

한 줄 요약

본 논문은 SSNet를 도입한다. SSNet은 샐리언시 탐지(saliency detection)와 약하게 지도된 의미 분할(weakly supervised semantic segmentation)을 엔드투엔드로 공동 학습하는 통합 다중 태스크 네트워크이며, 샐리언시 집계 모듈로 두 작업을 연결한다.

ABSTRACT

Existing weakly supervised semantic segmentation (WSSS) methods usually utilize the results of pre-trained saliency detection (SD) models without explicitly modeling the connections between the two tasks, which is not the most efficient configuration. Here we propose a unified multi-task learning framework to jointly solve WSSS and SD using a single network, \ie saliency, and segmentation network (SSNet). SSNet consists of a segmentation network (SN) and a saliency aggregation module (SAM). For an input image, SN generates the segmentation result and, SAM predicts the saliency of each category and aggregating the segmentation masks of all categories into a saliency map. The proposed network is trained end-to-end with image-level category labels and class-agnostic pixel-level saliency labels. Experiments on PASCAL VOC 2012 segmentation dataset and four saliency benchmark datasets show the performance of our method compares favorably against state-of-the-art weakly supervised segmentation methods and fully supervised saliency detection methods.

연구 동기 및 목표

샐리언시 탐지(SD)와의 연결을 명시적으로 모델링함으로써 약하게 지도된 의미 분할(WSSS)을 개선하려는 동기를 부여한다.
의미 분할과 샐리언시 맵을 공동으로 예측하는 엔드투엔드 네트워크를 개발한다.
이미지 수준의 카테고리 레이블과 픽셀 수준의 샐리언시 주석을 활용하여 하나의 모델을 훈련한다.
브리징 모듈을 통해 샐리언시 추론이 분할을 안내하고 그 반대도 가능하게 한다.

제안 방법

세분화 네트워크(SN)와 샐리언시 집계 모듈(SAM)로 구성된 SSNet를 제안한다.
SAM은 카테고리별 샐리언시 점수를 예측하고 카테고리 마스크를 S = sum_i v_i * H_i로 합산하여 단일 샐리언시 맵으로 집계한다.
두 단계로 훈련한다: 이미지 수준 레이블과 샐리언시 맵을 이용한 SSNet-1; SSNet-1으로부터 파생된 가짜 레이블과 샐리언시 맵을 이용한 SSNet-2.
두 가지 손실을 사용한다: 이미지 수준 카테고리 감독용 L_c와 파생 샐리언시 맵을 실제 ground-truth와 일치시키기 위한 L_s1; 이후 보정을 위해 가짜 레이블과 함께 L_s2를 도입한다.
특징 추출기로 DenseNet-169를 채택하고 해상도를 유지하기 위해 확장 수축 합성(convolutions)을 사용하되, 샐리언시 맵의 CRF 정제 외에는 분할 결과에 대한 후처리는 수행하지 않는다.

실험 결과

연구 질문

RQ1단일 네트워크가 샐리언시 탐지와 약하게 지도된 의미 분할을 효과적으로 동시에 수행할 수 있는가?
RQ2샐리언시 집계 모듈이 카테고리별 분할 마스크를 어떻게 연결하여 정확한 샐리언시 맵을 생성하는가?
RQ3다중 작업 학습이 단일 작업 WSSS 접근법에 비해 분할 성능을 향상시키는가?
RQ4이미지 수준 카테고리 레이블과 픽셀 수준 샐리언시 레이블을 함께 사용할 때 엔드투엔드 학습이 가능한가?
RQ5첫 단계 모델에서 생성된 가짜 레이블이 두 번째 학습 단계의 분할 성능을 further 개선하는가?

주요 결과

제안된 SSNet-1은 이미지 수준 레이블과 샐리언시 맵으로 학습될 때 단일 작업 학습보다 분할 성능(mIOU)이 향상된다.
가짜 레이블과 샐리언시 데이터를 사용하는 SSNet-2는 SSNet-1보다 분할 성능을 더욱 향상시킨다.
공동 다중 작업 학습은 샐리언시 탐지에 해를 주지 않으며 벤치마크 데이터셋에서 경쟁력 있는 샐리언시 지표를 제공한다.
엔드투엔드 프레임워크는 여러 약하게 지도된 분할 방법들보다 우수하며 일부 완전 지도 샐리언시 탐지기와 동등하거나 우수한 성능을 보인다.
샐리언시 집계 모듈은 모든 카테고리의 분할 마스크를 효과적으로 연결하여 학습을 안내하는 카테고리 인식 샐리언시 맵을 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.