QUICK REVIEW

[논문 리뷰] Deep Unsupervised Saliency Detection: A Multiple Noisy Labeling Perspective

Jing Zhang, Tong Zhang|arXiv (Cornell University)|2018. 03. 29.

Visual Attention and Saliency Detection참고 문헌 42인용 수 65

한 줄 요약

이 논문은 여러 노이즈가 있는 비지도 주목 맵을 학습 형태로 활용하여 인간 주석 없이 학습된 엔드-투-엔드 심층 주목 탐지기(end-to-end deep saliency detector)를 제안한다. 공동 잠재 주목 예측과 명시적 노이즈 모델링을 사용한다.

ABSTRACT

The success of current deep saliency detection methods heavily depends on the availability of large-scale supervision in the form of per-pixel labeling. Such supervision, while labor-intensive and not always possible, tends to hinder the generalization ability of the learned models. By contrast, traditional handcrafted features based unsupervised saliency detection methods, even though have been surpassed by the deep supervised methods, are generally dataset-independent and could be applied in the wild. This raises a natural question that "Is it possible to learn saliency maps without using labeled data while improving the generalization ability?". To this end, we present a novel perspective to unsupervised saliency detection through learning from multiple noisy labeling generated by "weak" and "noisy" unsupervised handcrafted saliency methods. Our end-to-end deep learning framework for unsupervised saliency detection consists of a latent saliency prediction module and a noise modeling module that work collaboratively and are optimized jointly. Explicit noise modeling enables us to deal with noisy saliency maps in a probabilistic way. Extensive experimental results on various benchmarking datasets show that our model not only outperforms all the unsupervised saliency methods with a large margin but also achieves comparable performance with the recent state-of-the-art supervised deep saliency methods.

연구 동기 및 목표

픽셀 단위 라벨 없이 일반화 성능을 향상시키기 위한 비지도 주목 학습의 동기를 제시한다.
여러 개의 비지도 주목 맵을 노이즈 라벨로 활용하여 딥 모델을 학습한다.
엔드 투 엔드 프레임워크에서 잠재 주목 예측기와 노이즈 모델을 함께 최적화한다.

제안 방법

두 모듈 아키텍처: 잠재 주목 예측 모듈(FCN/DeepLab 기반)과 노이즈 모델링 모듈.
각 수작업으로 만든 비지도 라벨을 y_i^j = y_bar_i + n_i^j로 모델링하고, n_i^j는 픽셀 단위 제로 평균 가우시안 q_i(Σ)에서 뽑힌다.
손실은 주목 예측 손실(예측 라벨과 노이즈 라벨 간의 교차 엔트로피)과 노이즈 손실(KL 차이) 사이를 결합한다.
노이즈 분산은 이미지별로 KL 기반 업데이트를 통해 갱신되어 라운드 간의 반복적 정제를 가능하게 한다.
훈련은 DeepLab/ResNet-101을 사용하고 엔드투엔드 최적화; 테스트는 노이즈 모듈 없이 잠재적으로 예측된 주목 맵을 사용한다.
이론적이고 실용적인 설계 선택으로 출력의 [0,1]로의 잘림, 라운드 기반 노이즈 업데이트, 모멘텀을 이용한 SGD를 포함한다.

실험 결과

연구 질문

RQ1다수의 노이즈가 있는 비지도 라벨에서 인간 주석 없이 주목 맵을 학습할 수 있는가?
RQ2명시적 노이즈 모델링이 Naive한 융합이나 약한 감독보다 비지도 심층 주목 탐지의 품질을 향상시키는가?
RQ3잠재 주목 예측기와 노이즈 모델 간의 수렴을 위한 반복 라운드는 몇 차례가 필요한가?
RQ4제안된 비지도 방법이 벤치마크 데이터셋에서 감독된 심층 주목 방법 및 전통적 비지도 방법과 비교하여 어떤 성능 차이를 보이는가?

주요 결과

방법은 기존의 비지도 주목 방법 대비 큰 격차로 우수한 성능을 보인다.
벤치마크 데이터셋에서 최첨단 감독 주목 탐지기와 높은 경쟁력을 달성한다.
ABE(아블레이션)으로 잠재 예측기와 노이즈 모델의 교대 업데이트가 라운드마다 성능을 향상시키며 여러 차례의 반복 후 수렴한다.
일곱 개의 벤치마크 데이터셋과 다양한 평가 지표(MAE, F-measure, PR)에서 강력한 결과를 얻는다.
질적 결과는 대조가 낮고 배경이 복잡한 도전적 시나리오에서 견고한 핵심 주목 객체 회복을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.