Skip to main content
QUICK REVIEW

[论文解读] Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps

Karen Simonyan, Andrea Vedaldi|arXiv (Cornell University)|Dec 20, 2013
Visual Attention and Saliency Detection参考文献 10被引用 4,905
一句话总结

本文提出基于梯度的卷积神经网络可视化方法:1)通过优化输入来生成代表类别的图像,2)为弱监督定位生成针对具体图像的显著性图,并将其与DeconvNet重建相关联。

ABSTRACT

This paper addresses the visualisation of image classification models, learnt using deep Convolutional Networks (ConvNets). We consider two visualisation techniques, based on computing the gradient of the class score with respect to the input image. The first one generates an image, which maximises the class score [Erhan et al., 2009], thus visualising the notion of the class, captured by a ConvNet. The second technique computes a class saliency map, specific to a given image and class. We show that such maps can be employed for weakly supervised object segmentation using classification ConvNets. Finally, we establish the connection between the gradient-based ConvNet visualisation methods and deconvolutional networks [Zeiler et al., 2013].

研究动机与目标

  • 通过将类别模型可视化为代表性图像,理解ConvNets对视觉类别学习到的内容。
  • 开发面向具体图像的显著性图,以识别对给定图像的类别评分有贡献的区域。
  • 证明显著性图能够在没有额外标注的情况下实现弱监督的对象定位。
  • 建立基于梯度的可视化与DeconvNet重建之间的理论联系。

提出的方法

  • 计算类别分数 S_c(I) 并在 L2 正则化下优化输入图像 I 以最大化 S_c(I)。
  • 在给定图像上反向传播以获得一阶导数 w = dS_c/dI,从而形成图像特定的显著性图 M,其中 M_ij = |w_h(i,j)|(灰度)或 M_ij = max_c |w_h(i,j,c)|(彩色)。
  • 通过单次反向传播来生成输入图像中所选类别的显著性图。
  • 使用 GraphCut 结合由显著性阈值推导的前/背景颜色模型来实现弱监督的对象定位。
  • 通过展示近似重建等价于通过网络的梯度反向传播,将梯度基可视化与 DeconvNet 重建联系起来。

实验结果

研究问题

  • RQ1梯度基优化输入是否能揭示CNN对一个类别的概念?
  • RQ2是否可以在没有额外标注的情况下,通过图像特定的显著性图揭示给定图像中类别的空间支撑?
  • RQ3梯度基可视化方法是否等同或与 DeconvNet 重建相关?
  • RQ4在弱监督条件下,基于显著性的定位是否能达到竞争性性能?
  • RQ5可视化结果如何帮助理解并潜在整合进学习框架?

主要发现

  • 类别模型可视化通过最大化类别分数 S_c(I) 得到代表该类别视觉外观的图像。
  • 由输入导数产生的图像特定显著性图突出显示给定图像中对某一类别具有区分性的区域,并且可以通过一次反向传播实现。
  • 显著性图通过阈值化并结合 GraphCut 产生对象掩模,从而实现弱监督对象定位,在他们的设定下在 ILSVRC-2013 上达到 46.4% 的前5定位误差。
  • 梯度基可视化推广了 DeconvNet 重建过程,显示对大多数层而言,反向传播的梯度与 DeconvNet 重建之间存在等价或高度相关关系。
  • 所用网络在 ILSVRC-2013 验证集上达到 39.7% 的 top-1 错误率和 17.7% 的 top-5 错误率,优于先前引用的单一 CNN 结果(40.7%/18.2%)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。