QUICK REVIEW

[论文解读] UC-Net: Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders

Jing Zhang, Deng-Ping Fan|arXiv (Cornell University)|Apr 13, 2020

Visual Attention and Saliency Detection参考文献 66被引用 35

一句话总结

UC-Net 通过使用 CVAE 生成多张显著性图并通过共识机制来推导稳健的最终显著性图，从而对 RGB-D 显著性中的标注不确定性进行建模。

ABSTRACT

In this paper, we propose the first framework (UCNet) to employ uncertainty for RGB-D saliency detection by learning from the data labeling process. Existing RGB-D saliency detection methods treat the saliency detection task as a point estimation problem, and produce a single saliency map following a deterministic learning pipeline. Inspired by the saliency data labeling process, we propose probabilistic RGB-D saliency detection network via conditional variational autoencoders to model human annotation uncertainty and generate multiple saliency maps for each input image by sampling in the latent space. With the proposed saliency consensus process, we are able to generate an accurate saliency map based on these multiple predictions. Quantitative and qualitative evaluations on six challenging benchmark datasets against 18 competing algorithms demonstrate the effectiveness of our approach in learning the distribution of saliency maps, leading to a new state-of-the-art in RGB-D saliency detection.

研究动机与目标

将显著性检测动机设为一个分布估计问题，而不是 RGB-D 数据中的点估计问题。
通过使用 CVAE 学习在 RGB-D 输入条件下的显著性图分布来建模人类标注的不确定性。
使每张图像具有多样化的预测并得到一个显著性共识，以产生稳健的最终显著性图。
利用深度校正模块处理深度噪声，并通过辅助损失改善边缘对齐。

提出的方法

提出一个基于 CVAE 的 RGB-D 显著性网络（UC-Net），其中 PriorNet（P_theta）和 PosteriorNet（Q_phi）将 X=(I,D)（在训练时还有 Y）映射到潜在变量 z~N(mu,diag(sigma^2))。
使用 DepthCorrectionNet 通过结合平滑 L1 与边界 IOU 指引的语义引导损失来细化原始深度。
使用 SaliencyNet（基于 VGG16、带 DenseASPP）从细化后的深度和 RGB 产生确定性的显著性特征 S^d。
引入 PredictionNet，将来自潜在变量 z 的随机特征 S^s 与确定性特征 S^d 融合以产生显著性 P；通过一个可学习的排序 r 进行通道级混合。
在测试阶段，从先验中采样以获得多张显著性预测，并应用显著性共识模块以生成多数投票的最终图。
采用迭代的“藏与找”标签增强策略来创建多样化的 GT 注释（AugedGT），以促进学习显著性变异性。

实验结果

研究问题

RQ1是否可以将 RGB-D 显著性有效建模为一个概率分布以捕捉标注不确定性？
RQ2与确定性或其他随机基线相比，基于 CVAE 的框架是否能为 RGB-D 输入生成多样且准确的显著性图？
RQ3通过语义引导的 DepthCorrectionNet 进行深度细化是否能提升显著性表现和边缘对齐？
RQ4显著性共识机制是否通过模仿人类多数标注来提升最终图的质量？

主要发现

与 18 个竞争方法相比，UC-Net 在六个具有挑战性的 RGB-D 显著性数据集上实现了最先进的性能。
基于 CVAE 的模型为具有复杂场景的图像生成多样的显著性图，超过确定性或单输出方法。
在 DES 等数据集上，结合 DepthCorrectionNet 在 S-measure、E-measure 和 F-measure 上实现显著提升。
显著性共识模块通过利用多种预测来逼近日标多数标注，进一步提升性能。
增强策略 AugedGT 有助于模型学习标注变体，即使每张图像只有一个 GT。
在所有数据集上，与基线相比，UC-Net 在 E-measure、F-measure 和 M（MAE）下降方面表现出显著提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。