Skip to main content
QUICK REVIEW

[论文解读] Learning Deep Features for Discriminative Localization

Bolei Zhou, Aditya Khosla|arXiv (Cornell University)|Dec 14, 2015
Advanced Neural Network Applications参考文献 28被引用 206
一句话总结

本文提出类激活映射(CAM),使仅使用图像级别标签训练的卷积神经网络(CNN)可通过全局平均池化(GAP)实现弱监督目标定位。通过利用GAP和类别特定的Softmax权重,CAM在单次前向传播中生成类别判别性定位图,在ILSVRC 2014上实现37.1%的top-5错误率——与全监督方法极为接近——表明深度特征在无需边界框标注的情况下既具有可解释性又可在不同任务间迁移。

ABSTRACT

In this work, we revisit the global average pooling layer proposed in [13], and shed light on how it explicitly enables the convolutional neural network to have remarkable localization ability despite being trained on image-level labels. While this technique was previously proposed as a means for regularizing training, we find that it actually builds a generic localizable deep representation that can be applied to a variety of tasks. Despite the apparent simplicity of global average pooling, we are able to achieve 37.1% top-5 error for object localization on ILSVRC 2014, which is remarkably close to the 34.2% top-5 error achieved by a fully supervised CNN approach. We demonstrate that our network is able to localize the discriminative image regions on a variety of tasks despite not being trained for them

研究动机与目标

  • 使仅使用图像级别标签训练的CNN在无边界框标注的情况下定位判别性图像区域。
  • 探究全局平均池化(GAP)是否能在正则化之外保留并增强深层网络的定位能力。
  • 证明所得深度特征具有通用性,并可在多种视觉识别任务间迁移。
  • 通过类激活图(CAM)提供类别特定特征的可解释可视化,以更好地理解CNN的决策过程。

提出的方法

  • 用全局平均池化(GAP)替代全连接层,以保持空间特征图并支持定位。
  • 使用最后一层卷积特征图及其对应的类别特定Softmax权重生成类激活图(CAM)。
  • 利用学习到的分类器权重对特征图进行加权求和,生成类别判别性热力图。
  • 使用标准图像分类损失端到端训练网络,实现在单次前向传播中的定位。
  • 利用CAM可视化解释图像中哪些区域对分类最为相关。
  • 将学习到的可定位特征迁移到零样本任务,如动作识别、场景分类和概念发现。

实验结果

研究问题

  • RQ1仅使用图像级别标签训练的CNN是否能在无任何边界框监督的情况下定位判别性目标区域?
  • RQ2与全局最大池化或全连接层相比,全局平均池化(GAP)在保留定位能力方面有何贡献?
  • RQ3基于分类训练的CNN的定位能力在多大程度上可泛化到其未显式训练过的任务?
  • RQ4类激活图(CAM)是否能有效可视化并解释网络用于分类的判别性区域?
  • RQ5在弱监督设置下,使用平均池化相比最大池化如何提升定位准确率?

主要发现

  • 所提出的CAM方法在ILSVRC 2014弱监督目标定位基准上实现37.1%的top-5错误率,与全监督AlexNet的34.2% top-5错误率极为接近。
  • 全局平均池化使网络在最终层仍能保留定位能力,而全连接层则会破坏空间信息。
  • 该方法即使在未针对这些任务进行训练的情况下,也能对动作识别和文本检测等任务定位判别性区域。
  • 类激活图成功突出显示了语义上有意义的区域——例如在刷牙动作中突出牙刷,或在街景图像中突出文本,且无需任何边界框标注。
  • 该技术实现了对深层CNN中类别特定单元的可视化,揭示了哪些特征图对特定类别最具判别性,如场景识别中的狗脸或沙发。
  • 该方法可泛化至零样本应用,包括视觉问答任务,其中CAM会突出显示与预测答案相关的图像区域。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。