Skip to main content
QUICK REVIEW

[論文レビュー] UC-Net: Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders

Jing Zhang, Deng-Ping Fan|arXiv (Cornell University)|Apr 13, 2020
Visual Attention and Saliency Detection参考文献 66被引用数 35
ひとこと要約

UC-NetはRGB-Dサリエンシのラベリング不確実性を、CVAEを用いて複数のサリエンシマップを生成し、堅牢な最終マップを導くコンセンサス機構を用いてモデル化する。

ABSTRACT

In this paper, we propose the first framework (UCNet) to employ uncertainty for RGB-D saliency detection by learning from the data labeling process. Existing RGB-D saliency detection methods treat the saliency detection task as a point estimation problem, and produce a single saliency map following a deterministic learning pipeline. Inspired by the saliency data labeling process, we propose probabilistic RGB-D saliency detection network via conditional variational autoencoders to model human annotation uncertainty and generate multiple saliency maps for each input image by sampling in the latent space. With the proposed saliency consensus process, we are able to generate an accurate saliency map based on these multiple predictions. Quantitative and qualitative evaluations on six challenging benchmark datasets against 18 competing algorithms demonstrate the effectiveness of our approach in learning the distribution of saliency maps, leading to a new state-of-the-art in RGB-D saliency detection.

研究の動機と目的

  • RGB-Dデータにおけるサリエンシ検出を点推定問題ではなく分布推定問題として動機づける。
  • CVAEを用いてRGB-D入力に条件付けられたサリエンシマップの分布を学習し、人間のアノテーション不確実性をモデリングする。
  • 画像ごとに多様な予測とサリエンシのコンセンサスを可能にし、堅牢な最終サリエンシマップを生成する。
  • 深度ノイズに対処する深度補正モジュールを用い、補助損失を通じてエッジ整合性を改善する。

提案手法

  • PriorNet (P_theta) および PosteriorNet (Q_phi) を備えたCVAEベースのRGB-Dサリエンシネットワーク(UC-Net)を提案し、X=(I,D)(訓練時は Y )を潜在変数 z~N(mu,diag(sigma^2))へ写像する。
  • DepthCorrectionNet を用いて、滑らかな L1 と境界 IOU ガイダンスを組み合わせた意味論的ガイド付き損失により生の深度を精練する。
  • SaliencyNet (VGG16ベースでDenseASPPを組み合わせた) を用いて、精練後の深度とRGBから決定論的サリエンシ特徴量 S^d を生成する。
  • PredictionNet を導入し、潜在変数 z からの確率的特徴量 S^s と決定論的特徴量 S^d を融合してサリエンシ P を生成する。学習可能なランキング r によるチャンネル単位の混合を行う。
  • テスト時には事前分布からサンプルを取り、複数のサリエンシ予測を得てサリエンシコンセンサスモジュールを適用して多数決による最終マップを生成する。
  • 多様なGTアノテーションを作成する反復的な“hide and seek”ラベル拡張戦略(AugedGT)を採用し、サリエンシの変動性の学習を促進する。

実験結果

リサーチクエスチョン

  • RQ1RGB-Dサリエンシはラベリング不確実性を捉えるために確率分布として効果的にモデル化できるか?
  • RQ2決定論的な基準や他の確率的ベースラインと比べて、CVAEベースのフレームワークはRGB-D入力に対して多様で正確なサリエンシマップを生成するか?
  • RQ3意味論的ガイド付きDepthCorrectionNetによる深度補正はサリエンシ性能とエッジ整合性を改善するか?
  • RQ4サリエンシコンセンサスメカニズムは人間の多数決ラベリングを模倣することにより最終マップの品質を向上させるか?

主な発見

  • UC-Netは18の競合手法と比較して、6つの難易度の高いRGB-Dサリエンシデータセットで最先端の性能を達成した。
  • CVAEベースのモデルは複雑なシーンを含む画像に対して多様なサリエンシマップを生成し、決定論的または単一出力アプローチを上回る。
  • DepthCorrectionNet を組み込むと DES などのデータセットで S-measure、E-measure、F-measure に著しい改善をもたらす。
  • サリエンシコンセンサスモジュールは、複数の予測を活用して多数決アノテーションを近似することで性能をさらに向上させる。
  • AugedGT という拡張戦略は、画像ごとにGTが1つしかなくてもラベリングの変種をモデルに学習させるのに役立つ。
  • データセットを跨いで、UC-Netはベースラインに対して E-measure、F-measure、および M (MAE) の削減で大きな向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。