QUICK REVIEW

[论文解读] Deep Gaze I: Boosting Saliency Prediction with Feature Maps Trained on ImageNet

Matthias Kümmerer, Lucas Theis|arXiv (Cornell University)|Nov 4, 2014

Visual Attention and Saliency Detection参考文献 23被引用 231

一句话总结

该论文提出 Deep Gaze I，一种显著提升注视点预测性能的显著性预测模型。该模型利用 Krizhevsky 等人（2012）提出的卷积神经网络在 ImageNet 上预训练的特征，实现了在 MIT 显著性基准测试中相比最先进模型解释信息量提升 67% 的性能。

ABSTRACT

Recent results suggest that state-of-the-art saliency models perform far from optimal in predicting fixations. This lack in performance has been attributed to an inability to model the influence of high-level image features such as objects. Recent seminal advances in applying deep neural networks to tasks like object recognition suggests that they are able to capture this kind of structure. However, the enormous amount of training data necessary to train these networks makes them difficult to apply directly to saliency prediction. We present a novel way of reusing existing neural networks that have been pretrained on the task of object recognition in models of fixation prediction. Using the well-known network of Krizhevsky et al. (2012), we come up with a new saliency model that significantly outperforms all state-of-the-art models on the MIT Saliency Benchmark. We show that the structure of this network allows new insights in the psychophysics of fixation selection and potentially their neural implementation. To train our network, we build on recent work on the modeling of saliency as point processes.

研究动机与目标

解决现有显著性模型在预测人类注视点方面表现不佳的问题，特别是其无法有效建模图像中的高层特征（如物体）。
通过重用大规模图像识别数据集上预训练的深度神经网络，缓解注视点预测中的数据稀缺问题。
开发一种能够同时捕捉低层次和高层次视觉特征（包括如突出显现等抽象概念）的显著性模型，以提升预测准确性。
建立一个基于点过程对数似然的严谨学习框架，用于评估和优化注视点预测模型。

提出的方法

将预训练的 Krizhevsky 等人（2012）提出的卷积神经网络（AlexNet）作为固定特征提取器，用于输入图像，利用其学习到的分层表征。
从预训练网络的多个中间层（例如，conv1 到 relu5）提取激活图，并将其上采样至与输入图像相同的分辨率。
通过学习到的逐特征权重对上采样的特征图进行线性组合，形成作为深度特征加权和的显著性图。
通过最大化点过程模型下观测到的注视点模式的对数似然来训练模型，实现无需非线性拟合的严谨优化。
使用 MIT1003 数据集（一半用于训练，一半用于测试）在注视点数据上训练线性模型，同时保持预训练网络的权重冻结。
通过识别权重最高的特征并可视化其对图像块的响应，分析特征重要性，揭示模型对人脸、文本和显著突出结构的敏感性。

实验结果

研究问题

RQ1ImageNet 上预训练的深度神经网络特征是否能够超越传统低层次线索，提升显著性预测性能？
RQ2线性模型在深度特征基础上，能在多大程度上捕捉并利用高层特征（如人脸、文本和显著物体）来提升注视点预测性能？
RQ3使用基于点过程建模的严谨最大对数似然目标函数，是否能带来比传统评估指标更好的性能表现？
RQ4像 Krizhevsky 的 AlexNet 这类预训练网络的内部表征，是否能为人类注视选择的神经机制提供启示？

主要发现

Deep Gaze I 在 MIT 显著性基准测试中相比最先进模型实现了 67% 的解释信息增益提升，达到 56% 的解释信息量。
该模型在无需任何非线性拟合的情况下显著优于现有显著性模型，表明仅靠深度特征本身即可提供丰富且具有预测力的表征。
模型学习到的最重要特征对高层视觉概念具有敏感性：排名第一的特征对人脸有响应，第二位对文本，第三位对显著突出结构。
该模型能够捕捉上下文相关的显著性，例如在视觉搜索任务中检测目标，表现出对超越简单亮度或颜色对比度的抽象关系特征的敏感性。
特征可视化结果证实，该模型能够检测到如人脸和文本等具有行为相关意义的有意义结构，验证了其在生物学和心理物理学上的合理性。
使用预训练的 ImageNet 特征使得模型即使在有限的注视点训练数据下也能表现强劲，从而避免了在小样本注视点数据集上端到端深度学习常见的过拟合问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。