QUICK REVIEW

[论文解读] Particular object retrieval with integral max-pooling of CNN activations

Giorgos Tolias, Ronan Sicre|arXiv (Cornell University)|Nov 18, 2015

Advanced Image and Video Retrieval Techniques参考文献 45被引用 674

一句话总结

本文提出一种基于卷积神经网络（CNN）的紧凑特征表示方法，通过卷积激活的积分最大池化实现高效的目标定位与重排序，特别适用于特定目标检索。通过结合广义均值池化与积分图像，该方法在Oxford5k和Paris6k数据集上达到当前最优性能，优于以往基于CNN的方法，并与传统局部特征方法相当。

ABSTRACT

Recently, image representation built upon Convolutional Neural Network (CNN) has been shown to provide effective descriptors for image search, outperforming pre-CNN features as short-vector representations. Yet such models are not compatible with geometry-aware re-ranking methods and still outperformed, on some particular object retrieval benchmarks, by traditional image search systems relying on precise descriptor matching, geometric re-ranking, or query expansion. This work revisits both retrieval stages, namely initial search and re-ranking, by employing the same primitive information derived from the CNN. We build compact feature vectors that encode several image regions without the need to feed multiple inputs to the network. Furthermore, we extend integral images to handle max-pooling on convolutional layer activations, allowing us to efficiently localize matching objects. The resulting bounding box is finally used for image re-ranking. As a result, this paper significantly improves existing CNN-based recognition pipeline: We report for the first time results competing with traditional methods on the challenging Oxford5k and Paris6k datasets.

研究动机与目标

解决基于CNN的特征在与几何感知重排序和查询扩展方法兼容性方面的局限性。
仅通过一次CNN前向传播，实现特定目标的高效定位。
开发一种源自卷积激活的统一表示，支持初始过滤与重排序。
通过使用紧凑的CNN特征，不依赖局部特征匹配，提升Oxford5k和Paris6k等基准数据集的检索性能。

提出的方法

通过在预训练CNN的特征图上对多个感兴趣区域应用积分最大池化，构建紧凑的图像表示。
将积分图像的概念扩展至支持二维特征图上的最大池化操作，实现匹配区域的快速且可微分的定位。
使用广义均值池化（α=2）以支持在最大池化中使用积分图像，从而实现基于激活的相似性分数的高效计算。
利用局部特征通过一种新颖的查询扩展方法（AML）进行重排序，该方法利用激活最高的区域来优化初始检索结果。
仅存储全局特征向量，并在推理阶段通过积分最大池化机制动态提取区域级特征。
将紧凑表示与重排序流水线相结合，该流水线利用初始过滤阶段所用的相同CNN激活。

实验结果

研究问题

RQ1单一CNN特征表示能否同时支持特定目标检索中的初始过滤与几何感知重排序？
RQ2对卷积激活进行积分最大池化，能否在无需多次网络推理的情况下实现高效且准确的目标定位？
RQ3使用广义均值池化是否能支持在最大池化中使用积分图像，从而实现在CNN特征图中的快速定位？
RQ4基于CNN的系统若采用紧凑特征与重排序，能否在Oxford5k和Paris6k等标准基准上超越传统的基于局部特征的方法？

主要发现

所提出的R-MAC方法结合积分最大池化，在Oxford5k上达到77.0% mAP，在Paris6k上达到86.5% mAP，优于两个基准上所有先前的基于CNN的方法。
该方法在Paris6k上的性能为已发表的基于CNN方法中最高，甚至超过部分基于局部特征的系统。
基于AML的重排序方法在Paris6k上将mAP提升最高达3.9个百分点，应用于R-MAC表示时表现显著。
在积分池化框架中，将最大池化替换为求和池化（α=1）会导致性能下降（Paris106k上为76.9% mAP），证实了在此情境下最大池化的优越性。
与Razavian等人（2014b）的交叉匹配方法相比，该系统在Oxford5k上提升了3.0% mAP，同时显著降低了内存与计算开销。
由于采用单次推理设计，该方法比以往需要多次前向传播或存储单个区域特征的基于CNN的方法更具效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。