Skip to main content
QUICK REVIEW

[论文解读] Learning Uncertain Convolutional Features for Accurate Saliency Detection

Pingping Zhang, Dong Wang|arXiv (Cornell University)|Aug 7, 2017
Visual Attention and Saliency Detection参考文献 46被引用 23
一句话总结

本文提出一种全卷积网络,通过重构的dropout(R-dropout)学习不确定卷积特征(UCF),以提高显著性检测的准确性,特别是在边界定位方面。此外,还引入了一种混合上采样方法,以减少反卷积引起的棋盘纹伪影,在无需后处理的情况下,在显著性检测、语义分割和眼动预测基准上均实现了最先进性能。

ABSTRACT

Deep convolutional neural networks (CNNs) have delivered superior performance in many computer vision tasks. In this paper, we propose a novel deep fully convolutional network model for accurate salient object detection. The key contribution of this work is to learn deep uncertain convolutional features (UCF), which encourage the robustness and accuracy of saliency detection. We achieve this via introducing a reformulated dropout (R-dropout) after specific convolutional layers to construct an uncertain ensemble of internal feature units. In addition, we propose an effective hybrid upsampling method to reduce the checkerboard artifacts of deconvolution operators in our decoder network. The proposed methods can also be applied to other deep convolutional networks. Compared with existing saliency detection methods, the proposed UCF model is able to incorporate uncertainties for more accurate object boundary inference. Extensive experiments demonstrate that our proposed saliency model performs favorably against state-of-the-art approaches. The uncertain feature learning mechanism as well as the upsampling method can significantly improve performance on other pixel-wise vision tasks.

研究动机与目标

  • 解决基于深度学习的显著性检测模型在概率可解释性和鲁棒性方面的不足。
  • 减少基于反卷积的上采样在像素级视觉任务中引起的棋盘纹伪影。
  • 在端到端全卷积网络中统一不确定特征学习与边界感知的显著性预测。
  • 开发一种可泛化的框架,适用于显著性检测之外的其他像素级预测任务。

提出的方法

  • 在特定卷积层之后引入重构的dropout(R-dropout),以生成内部特征单元的自适应集成,实现无需额外参数的不确定性估计。
  • 采用一种混合上采样策略,将上采样与卷积解耦,结合转置卷积与插值方法,以最小化棋盘纹伪影。
  • 使用标准的编码器-解码器架构,配备像素级分类层,通过端到端反向传播联合训练所有参数。
  • 应用R-dropout生成随机特征图以建模不确定性,提升模型鲁棒性与边界定位精度。
  • 设计轻量化且全卷积的网络结构,避免全连接层,以保留空间信息。
  • 在多个数据集上验证方法,包括用于语义分割的PASCAL VOC 2012,以及用于眼动预测的MIT300、iSUN和SALICON。

实验结果

研究问题

  • RQ1在深层特征中建模不确定性是否能提升显著性检测的准确性与鲁棒性,尤其是在物体边界处?
  • RQ2如何有效缓解像素级预测任务中由反卷积引起的棋盘纹伪影?
  • RQ3所提出的混合上采样方法是否能在语义分割和眼动预测等不同视觉任务中实现泛化?
  • RQ4结合不确定特征学习与伪影减少的上采样方法,是否能在无需后处理的情况下实现最先进性能?

主要发现

  • 所提出的UCF模型在多个显著性检测基准上实现了最先进性能,显著优于现有方法,尤其在边界准确性和整体检测质量方面。
  • 消融实验表明,R-dropout显著提升了特征鲁棒性,其中V-B(仅使用R-dropout)相比V-A(标准dropout)有明显优势。
  • 混合上采样方法有效减少了棋盘纹伪影,如图6所示的视觉验证;在PASCAL VOC 2012上,其平均IoU比标准反卷积高出0.78个百分点。
  • 在PASCAL VOC 2012语义分割基准上,模型达到68.25的平均IoU、92.19的平均像素准确率和77.28的像素准确率,与最先进方法相当。
  • 在眼动预测任务中,模型在MIT300上AUC-J为0.8584,iSUN上为0.8615,SALICON上为0.7621,展现出在多样化数据集上的强泛化能力。
  • 该方法在任务间具有良好的泛化性:在无需架构修改或后处理的情况下,于语义分割和眼动预测任务中均取得了具有竞争力的结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。