QUICK REVIEW

[论文解读] Deep Contrast Learning for Salient Object Detection

Guanbin Li, Yizhou Yu|arXiv (Cornell University)|Mar 7, 2016

Visual Attention and Saliency Detection参考文献 42被引用 132

一句话总结

双流端到端深度网络（像素级MS-FCN和分段级汇聚）学习视觉对比度以实现显著对象检测；可选的全连接CRF后处理提升空间一致性。

ABSTRACT

Salient object detection has recently witnessed substantial progress due to powerful features extracted using deep convolutional neural networks (CNNs). However, existing CNN-based methods operate at the patch level instead of the pixel level. Resulting saliency maps are typically blurry, especially near the boundary of salient objects. Furthermore, image patches are treated as independent samples even when they are overlapping, giving rise to significant redundancy in computation and storage. In this CVPR 2016 paper, we propose an end-to-end deep contrast network to overcome the aforementioned limitations. Our deep network consists of two complementary components, a pixel-level fully convolutional stream and a segment-wise spatial pooling stream. The first stream directly produces a saliency map with pixel-level accuracy from an input image. The second stream extracts segment-wise features very efficiently, and better models saliency discontinuities along object boundaries. Finally, a fully connected CRF model can be optionally incorporated to improve spatial coherence and contour localization in the fused result from these two streams. Experimental results demonstrate that our deep model significantly improves the state of the art.

研究动机与目标

通过在像素级和分段级建模视觉对比度，将鲁棒的显著对象检测从基于patch的CNN中解放出来。
提出一种端到端的架构，能够高效地产生高分辨率的显著性图。
通过对融合输出应用全连接CRF，实现边界感知的 refinement。

提出的方法

引入一个双流架构：一个像素级多尺度全卷积网络（MS-FCN），生成密集的显著性图；一个分段级空间汇聚流，针对超像素高效计算显著性。
通过一个1x1卷积层对两路显著性图进行融合，该卷积层的权重需要学习。
可选地使用全连接CRF对融合图进行 refined，以提高空间一致性和轮廓定位。
以交替方式训练两个流：先初始化分段流，然后联合微调两个流和融合层，并以与真实显著性图的交叉熵损失进行训练。
使用8像素步长的MS-FCN，结合hole（à trous）卷积以保持分辨率和多尺度上下文。
在训练中定义一个损失加权beta_i，以平衡训练中显著像素和非显著像素的贡献。

实验结果

研究问题

RQ1一个结合像素级和分段级线索的端到端架构是否在显著对象检测中优于基于patch的CNN？
RQ2引入CRF后处理步骤是否在空间一致性和边界精度方面带来可测量的提升？
RQ3多尺度上下文特征和分段级遮罩对在不同数据集上显著性精确性有何贡献？
RQ4融合的MS-FCN和分段级显著性是否在具有多个显著对象或边界接触的图像上更加鲁棒？

主要发现

数据集	指标	SF	GC	DRFI	PISA	BSCA	LEGS	MC	MDF	FCN	DCL	DCL +
MSRA-B	maxF	0.700	0.719	0.845	0.837	0.830	0.870	0.894	0.885	0.864	0.905	0.916
MSRA-B	MAE	0.166	0.159	0.112	0.102	0.130	0.081	0.054	0.066	0.096	0.052	0.047
HKU-IS	MAE	0.173	0.211	0.167	0.127	0.174	0.118	0.102	0.076	0.087	0.054	0.049
DUT-OMRON	MAE	0.147	0.218	0.150	0.141	0.191	0.133	0.088	0.092	0.131	0.084	0.080
PASCAL-S	MAE	0.240	0.266	0.210	0.196	0.224	0.157	0.145	0.145	0.128	0.113	0.108
SOD	MAE	0.267	0.284	0.223	0.223	0.251	0.195	0.179	0.155	0.158	0.129	0.126

DCL（双流）模型在多个数据集上通过maxF、MAE和精确度-召回分析超越了现有方法。
加入CRF细化（DCL +）在不同数据集上进一步提高了准确性和轮廓保留。
MS-FCN流对性能贡献显著，完整的双流融合获得最佳结果。
所提方法在MSRA-B、HKU-IS、DUT-OMRON、PASCAL-S和SOD数据集上与八个近年方法及FCN基线相比，达到最先进的结果。
训练可行（在MSRA-B约25小时），测试高效（DCL约1.5秒/张图像；CRF细化约0.8秒/张图像）。
消融研究显示深层对比学习和CRF均有贡献，两者互为补充。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。