Skip to main content
QUICK REVIEW

[논문 리뷰] UC-Net: Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders

Jing Zhang, Deng-Ping Fan|arXiv (Cornell University)|2020. 04. 13.
Visual Attention and Saliency Detection참고 문헌 66인용 수 35
한 줄 요약

UC-Net 모델은 CVAE를 활용해 다중 saliency 맵을 생성하고 합의 메커니즘으로 강건한 최종 맵을 도출하여 RGB-D 라벨링 불확실성을 모델링합니다.

ABSTRACT

In this paper, we propose the first framework (UCNet) to employ uncertainty for RGB-D saliency detection by learning from the data labeling process. Existing RGB-D saliency detection methods treat the saliency detection task as a point estimation problem, and produce a single saliency map following a deterministic learning pipeline. Inspired by the saliency data labeling process, we propose probabilistic RGB-D saliency detection network via conditional variational autoencoders to model human annotation uncertainty and generate multiple saliency maps for each input image by sampling in the latent space. With the proposed saliency consensus process, we are able to generate an accurate saliency map based on these multiple predictions. Quantitative and qualitative evaluations on six challenging benchmark datasets against 18 competing algorithms demonstrate the effectiveness of our approach in learning the distribution of saliency maps, leading to a new state-of-the-art in RGB-D saliency detection.

연구 동기 및 목표

  • RGB-D 데이터에서 주목도 탐지를 점 추정 문제가 아닌 분포 추정 문제로 다루도록 고무한다.
  • CVAE를 사용하여 RGB-D 입력에 조건화된 saliency 맵의 분포를 학습함으로써 인간 주석의 불확실성을 모델링한다.
  • 이미지당 다양한 예측과 주목도 합의를 통해 강건한 최종 주목도 맵을 만들어낸다.
  • 깊이 노이즈를 깊이 보정 모듈로 해결하고 보조 손실을 통해 에지 정렬을 향상시킨다.

제안 방법

  • PriorNet (P_theta)과 PosteriorNet (Q_phi)로 매핑하는 CVAE 기반 RGB-D 주목 네트워크(UC-Net)를 제안한다. X=(I,D) (학습 중 Y 포함)에서 잠재 z~N(mu,diag(sigma^2))로 매핑한다.
  • 의의 의미 지향 손실을 결합한 매끄러운 L1 및 경계 IOU 가이던스로 원시 깊이를 보정한다.
  • 정해진 SaliencyNet(VGG16 기반의 DenseASPP 포함)을 사용하여 정해진 saliency 특징 S^d를 정제된 깊이와 RGB로부터 생성한다.
  • 잠재 z로부터의 확률적 특징 S^s와 결정적 특징 S^d를 융합해 saliency P를 생성하는 PredictionNet을 도입한다; 학습 가능한 순위 r로 채널 단위 혼합을 수행한다.
  • 테스트 시, Prior에서 샘플링하여 다수의 saliency 예측을 얻고 합의 모듈을 적용해 다수결 최종 맵을 생성한다.
  • "hide and seek" 라벨 증강 전략을 반복적으로 채택하여 다양한 GT 주석(AugedGT)을 생성하고 주목도 가변성을 학습하도록 한다.

실험 결과

연구 질문

  • RQ1RGB-D 주목도가 라벨링 불확실성을 포착하기 위해 확률 분포로 효과적으로 모델링될 수 있는가?
  • RQ2결정론적 또는 다른 확률적 기준선과 비교하여 CVAE 기반 프레임워크가 RGB-D 입력에 대해 다양하고 정확한 주목도 맵을 생성하는가?
  • RQ3의미-guided DepthCorrectionNet를 통한 깊이 보정이 주목도 성능과 에지 정렬을 향상시키는가?
  • RQ4주목도 합의 메커니즘이 인간 다수의 주석을 모방하여 최종 맵 품질을 향상시키는가?

주요 결과

  • UC-Net은 18개의 경쟁 방법과 비교하여 여섯 개의 도전적인 RGB-D 주목도 데이터셋에서 최첨단 성능을 달성한다.
  • CVAE 기반 모델은 복잡한 장면의 이미지에 대해 다양한 saliency 맵을 생성하여 결정론적 또는 단일 출력 접근법을 능가한다.
  • DepthCorrectionNet를 도입하면 DES 및 관련 데이터셋에서 S-measure, E-measure 및 F-measure에 뚜렷한 향상을 가져온다.
  • 주목도 합의 모듈은 여러 예측을 활용하여 다수 주석을 근사해 성능을 추가로 향상시킨다.
  • 증강 전략 AugedGT는 이미지당 단일 GT임에도 주석 변형 학습에 도움을 준다.
  • 데이터셋 전반에 걸쳐 UC-Net은 baselines에 비해 E-measure, F-measure 및 M (MAE) 감소에서 강한 향상을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.