Skip to main content
QUICK REVIEW

[论文解读] Global Weighted Average Pooling Bridges Pixel-level Localization and Image-level Classification

Suo Qiu|arXiv (Cornell University)|Sep 21, 2018
Industrial Vision Systems and Defect Detection参考文献 4被引用 24
一句话总结

本文提出全局加权平均池化(GWAP),仅使用图像级别标签即可实现像素级定位与图像级分类的同步。通过为特征图学习类别无关与类别特定的权重,GWAP在传统全局最大/平均池化的基础上提升了定位精度,在ILSVRC上实现了54.99%的top-1定位误差,并在PASCAL VOC上与R-FCN结合时将mAP提升了1.1%,实现了弱监督检测的性能提升。

ABSTRACT

In this work, we first tackle the problem of simultaneous pixel-level localization and image-level classification with only image-level labels for fully convolutional network training. We investigate the global pooling method which plays a vital role in this task. Classical global max pooling and average pooling methods are hard to indicate the precise regions of objects. Therefore, we revisit the global weighted average pooling (GWAP) method for this task and propose the class-agnostic GWAP module and the class-specific GWAP module in this paper. We evaluate the classification and pixel-level localization ability on the ILSVRC benchmark dataset. Experimental results show that the proposed GWAP module can better capture the regions of the foreground objects. We further explore the knowledge transfer between the image classification task and the region-based object detection task. We propose a multi-task framework that combines our class-specific GWAP module with R-FCN. The framework is trained with few ground truth bounding boxes and large-scale image-level labels. We evaluate this framework on PASCAL VOC dataset. Experimental results show that this framework can use the data with only image-level labels to improve the generalization of the object detection model.

研究动机与目标

  • 通过仅利用图像级别标签,解决像素级定位与目标检测的高标注成本问题。
  • 克服全局最大池化(GMP)与全局平均池化(GAP)因硬编码聚合策略而无法精确定位目标的局限性。
  • 开发一种可学习的全局池化机制,无需边界框标注即可自然生成像素级定位图。
  • 通过将GWAP集成到与R-FCN的多任务框架中,实现从图像分类到基于区域检测的知识迁移。
  • 证明大规模图像级别标签即使仅少数图像具有边界框标注,也能显著提升检测性能。

提出的方法

  • 提出一种类别无关的GWAP模块,学习特征图的全局权重以计算加权平均,突出显著区域。
  • 引入一种类别特定的GWAP模块,生成每个类别的注意力图,提升单个目标类别的定位精度。
  • 使用多实例学习(MIL)框架,仅通过图像级别标签训练全卷积网络,最终预测由池化后的特征得出。
  • 使用像素级预测头生成GWAP的注意力权重,进而生成用于定位的类别激活图(CAMs)。
  • 将类别特定的GWAP模块集成到R-FCN架构中,在多任务学习设置下联合训练图像分类与目标检测。
  • 通过平均多个输入分辨率下的注意力图,应用多尺度推理,以提升定位的鲁棒性与准确性。

实验结果

研究问题

  • RQ1在弱监督像素级定位中,全局加权平均池化(GWAP)是否能优于全局最大池化(GMP)与全局平均池化(GAP)?
  • RQ2GWAP是否能学习到有意义且具有判别性的注意力图,在无任何边界框标注的情况下精确定位目标区域?
  • RQ3将GWAP集成到检测框架(如R-FCN)中,当仅少数训练图像具有边界框标注时,是否能提升泛化能力?
  • RQ4所提出方法是否能在弱监督设置下,有效实现从图像级别分类到基于区域的目标检测的知识迁移?
  • RQ5多尺度推理如何影响基于GWAP模型的定位精度?

主要发现

  • 所提出的GoogLeNet-GWAP模型在ILSVRC验证集上实现了54.99%的top-1定位误差,优于GoogLeNet-GAP,并接近全监督GoogLeNet的性能。
  • 与GoogLeNet-GAP相比,GoogLeNet-GWAP在top-1准确率上提升了3.2个百分点,在top-5准确率上提升了1.9个百分点,证明了其在特征聚合方面的优越性。
  • 使用多尺度输入(224, 448, 672)时,相比单尺度推理,定位误差降低了0.9%,显示出更高的空间精度。
  • 在PASCAL VOC 2007上,R-FCN + GWAP框架在仅10%图像具有边界框标注的情况下,mAP达到63.17%,优于R-FCN + GAP(62.32%)和R-FCN(61.05%)。
  • 可视化结果表明,GWAP生成的定位图比GAP更完整、更准确,能更好地捕捉目标的完整形状与轮廓。
  • 在多任务设置下,GWAP与GAP的结合带来微小增益,表明注意力机制之间具有互补优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。