QUICK REVIEW

[论文解读] Shallow and Deep Convolutional Networks for Saliency Prediction

Junting Pan, Kevin McGuinness|arXiv (Cornell University)|Mar 2, 2016

Visual Attention and Saliency Detection参考文献 35被引用 132

一句话总结

本文提出两种端到端CNN用于显著性预测：一种从头开始的浅层网络，另一种利用迁移底层的更深网络，在多个显著性基准和数据集上进行评估。

ABSTRACT

The prediction of salient areas in images has been traditionally addressed with hand-crafted features based on neuroscience principles. This paper, however, addresses the problem with a completely data-driven approach by training a convolutional neural network (convnet). The learning process is formulated as a minimization of a loss function that measures the Euclidean distance of the predicted saliency map with the provided ground truth. The recent publication of large datasets of saliency prediction has provided enough data to train end-to-end architectures that are both fast and accurate. Two designs are proposed: a shallow convnet trained from scratch, and a another deeper solution whose first three layers are adapted from another network trained for classification. To the authors knowledge, these are the first end-to-end CNNs trained and tested for the purpose of saliency prediction.

研究动机与目标

从手工特征转向基于数据驱动的显著性预测，使用CNN。
开发并比较两种端到端架构（从头开始的浅层网络，采用迁移学习的深层网络）。
在多個大型数据集和基准数据集上评估显著性预测性能。
分析浅层与深层模型的内存需求和训练考虑因素。

提出的方法

浅层卷积网络：五层可学习层（三层卷积，二层全连接），在 SALICON 和 iSUN 数据集上从头训练；参数量 64.4M；输出的显著性图在输入尺寸上重设并进行高斯后滤波。
深层卷积网络：共十层权重层，前三层从预训练的 VGG_M 初始化；使用反卷积层生成显著性图；在 SALICON 数据上用欧几里得损失进行训练；利用迁移学习来正则化。
训练细节：使用带Nesterov动量的SGD，学习率调度；SALICON数据集80/20的训练/验证划分；输入下采样到320x240；批量大小2；总迭代24k；输入和目标值做均值归一化处理，采用标准L2权重衰减。
评估：在 MIT 显著性基准、LSUN 挑战、SALICON、iSUN、MIT300 数据集上进行评估；讨论内存使用和推理考虑因素。

实验结果

研究问题

RQ1端到端CNN能否在像素级显著性图预测方面与手工方法相比取得有效效果？
RQ2从头开始的浅层CNN与使用迁移学习的深层CNN在显著性预测性能上有何差异？
RQ3当数据有限时，从分类网络进行迁移学习是否能提升显著性预测？
RQ4所提出的模型在不同的显著性数据集和基准测试上的泛化能力如何？

主要发现

两种架构在标准显著性基准上均取得竞争性结果（例如 iSUN 验证集的 AUC：深层 0.63，浅层 0.64；Judd/Borji/随机排列的变体如表4所示）。
浅层卷积网络在2015年LSUN显著性预测挑战赛中获胜，在SALICON和iSUN测试集上超越了若干基线。
在MIT300上，深层卷积网络的性能与DeepGaze 1相当，而浅层卷积网络在整个基准集合中仍然是强有力的高端表现者。
深层网络受益于从预训练的VGG_M迁移底层卷积层，提升正则化和最终显著性预测质量。
浅层网络层数较少但参数更多（由于全连接层），并且在测试时处理更快且呈现不同的空间偏置（中心趋向）。
内存分析显示不同的权衡：浅层网络参数数目较高但中间数据内存较低，从而支持更大批量测试；深层网络参数较少但中间数据需求更高。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。