QUICK REVIEW

[논문 리뷰] Deep Contrast Learning for Salient Object Detection

Guanbin Li, Yizhou Yu|arXiv (Cornell University)|2016. 03. 07.

Visual Attention and Saliency Detection참고 문헌 42인용 수 132

한 줄 요약

픽셀 수준 MS-FCN과 세그먼트 수준 풀링을 갖춘 두 흐름 엔드-투-엔드 딥 네트워크가 시각적 대비를 학습하여 주목 객체 탐지를 수행한다; 선택적으로 완전 연결 CRF 후처리는 공간적 일관성을 향상시킨다.

ABSTRACT

Salient object detection has recently witnessed substantial progress due to powerful features extracted using deep convolutional neural networks (CNNs). However, existing CNN-based methods operate at the patch level instead of the pixel level. Resulting saliency maps are typically blurry, especially near the boundary of salient objects. Furthermore, image patches are treated as independent samples even when they are overlapping, giving rise to significant redundancy in computation and storage. In this CVPR 2016 paper, we propose an end-to-end deep contrast network to overcome the aforementioned limitations. Our deep network consists of two complementary components, a pixel-level fully convolutional stream and a segment-wise spatial pooling stream. The first stream directly produces a saliency map with pixel-level accuracy from an input image. The second stream extracts segment-wise features very efficiently, and better models saliency discontinuities along object boundaries. Finally, a fully connected CRF model can be optionally incorporated to improve spatial coherence and contour localization in the fused result from these two streams. Experimental results demonstrate that our deep model significantly improves the state of the art.

연구 동기 및 목표

픽셀 수준과 세그먼트 수준에서 시각적 대비를 모델링하여 패치 기반 CNN를 넘어 강건한 주목 물체 탐지를 유도한다.
고해상도 탐지 맵을 효율적으로 생성하는 엔드-투-엔드 아키텍처를 제안한다.
융합 출력에 대해 완전 연결 CRF를 통한 경계 인식 보정이 가능하도록 한다.

제안 방법

픽셀 수준의 다중 스케일 완전 합성곱 네트워크(MS-FCN)가 밀도 높은 주목 맵을 생성하고, 초-픽셀(슈퍼픽셀)에서 효율적으로 주목도를 계산하는 세그먼트 수준 공간 풀링 스트림으로 구현된 두 흐름 아키텍처를 도입한다.
학습된 가중치를 갖는 1x1 합성곱 계층으로 두 주목 맵을 융합한다.
융합 맵을 완전 연결 CRF로 선택적으로 정제하여 공간적 일관성과 경계 위치를 개선한다.
교대 방식으로 스트림을 학습한다: 세그먼트 스트림을 초기화한 뒤, 두 스트림과 융합 층을 지상-truth 탐지 맵에 대해 교차 엔트로피 손실로 공동 미세 조정한다.
해상도 및 다중 스케일 컨텍스트를 유지하기 위해 간격이 8픽셀인 MS-FCN과 hole(à trous) 합성곱을 사용한다.
학습에서 주목 픽셀과 비주목 픽셀의 기여를 균형 잡기 위해 β_i 손실 가중치를 정의한다.

실험 결과

연구 질문

RQ1픽셀 수준과 세그먼트 수준의 단서를 결합한 엔드-투-엔드 아키텍처가 주목 객체 탐지에서 패치 기반 CNN보다 우수한가요?
RQ2CRF 후처리 단계의 도입이 공간적 일관성과 경계 정확도에 측정 가능한 이점을 가져오나요?
RQ3다중 스케일 컨텍스트 특성과 세그먼트 수준 마스킹이 다양한 데이터셋에서 주목 정확도에 어떻게 기여하나요?
RQ4융합 MS-FCN과 세그먼트 수준 주목의 조합이 다수의 경계에 닿거나 경계가 있는 주목 객체가 있는 이미지에서 더 강건한가요?

주요 결과

데이터 세트	지표	SF	GC	DRFI	PISA	BSCA	LEGS	MC	MDF	FCN	DCL	DCL +
MSRA-B	maxF	0.700	0.719	0.845	0.837	0.830	0.870	0.894	0.885	0.864	0.905	0.916
MSRA-B	MAE	0.166	0.159	0.112	0.102	0.130	0.081	0.054	0.066	0.096	0.052	0.047
HKU-IS	MAE	0.173	0.211	0.167	0.127	0.174	0.118	0.102	0.076	0.087	0.054	0.049
DUT-OMRON	MAE	0.147	0.218	0.150	0.141	0.191	0.133	0.088	0.092	0.131	0.084	0.080
PASCAL-S	MAE	0.240	0.266	0.210	0.196	0.224	0.157	0.145	0.145	0.128	0.113	0.108
SOD	MAE	0.267	0.284	0.223	0.223	0.251	0.195	0.179	0.155	0.158	0.129	0.126

DCL(두 흐름) 모델이 maxF, MAE, 정밀도-재현 분석에서 다수의 데이터셋에서 기존 방법들을 능가한다.
CRF 보정(DCL +)을 추가하면 데이터셋 전반에서 정확도와 경계 보존이 더 향상된다.
MS-FCN 스트림이 성능에 크게 기여하며, 전체 두 흐름 융합이 최상의 결과를 제공한다.
제안된 방법은 MSRA-B, HKU-IS, DUT-OMRON, PASCAL-S, 및 SOD 데이터셋에서 여덟 가지 최신 방법 및 FCN 기준선 대비 최첨단 결과를 달성한다.
학습은 가능하며(대략 MSRA-B에서 25시간), 추론은 효율적이다( DCL 당 이미지당 약 1.5초; CRF 정제는 0.8초).
제약 연구에서 깊은 대비 학습과 CRF 모두 개선에 기여하며, 두 스트림이 서로 보완한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.