QUICK REVIEW

[论文解读] Local Features and Visual Words Emerge in Activations

Oriane Siméoni, Yannis Avrithis|arXiv (Cornell University)|May 15, 2019

Advanced Image and Video Retrieval Techniques参考文献 47被引用 72

一句话总结

本文提出深度空间匹配（DSM），一种直接从CNN激活张量中提取几何上有意义的局部特征的方法，无需微调或增加额外层。通过在特征图中检测局部极大值并利用其进行空间验证，DSM在图像检索基准上实现了最先进性能，当与基于扩散的重排序结合时，显著提升了mAP和mP@10。

ABSTRACT

We propose a novel method of deep spatial matching (DSM) for image retrieval. Initial ranking is based on image descriptors extracted from convolutional neural network activations by global pooling, as in recent state-of-the-art work. However, the same sparse 3D activation tensor is also approximated by a collection of local features. These local features are then robustly matched to approximate the optimal alignment of the tensors. This happens without any network modification, additional layers or training. No local feature detection happens on the original image. No local feature descriptors and no visual vocabulary are needed throughout the whole process. We experimentally show that the proposed method achieves the state-of-the-art performance on standard benchmarks across different network architectures and different global pooling methods. The highest gain in performance is achieved when diffusion on the nearest-neighbor graph of global descriptors is initiated from spatially verified images.

研究动机与目标

弥合全局CNN描述子（检索效率高）与局部表征（兼容空间验证）之间的差距。
在不依赖传统局部特征检测器或视觉词袋的前提下，实现在大规模图像检索中的高精度重排序。
利用CNN激活图中固有的稀疏性与空间结构，提取鲁棒且几何一致的特征用于匹配。
仅使用预训练网络的激活张量，不修改或微调网络，提升检索性能。
证明局部特征可自然地从CNN激活中涌现，并可用于空间验证与基于扩散的重排序。

提出的方法

在最终卷积特征图的每个通道中检测局部极大值作为局部特征，无需图像级检测或图像块提取。
将这些局部极大值作为稀疏空间关键点，用于两幅图像激活张量之间的几何匹配。
在检测到的局部特征上应用快速空间匹配（如基于RANSAC的对齐）以估计几何变换。
利用空间验证后的匹配结果，通过全局描述子的最近邻图上的扩散过程对初始检索结果进行重排序。
将DSM与现有全局池化方法（如MAC、GeM）及重排序策略集成，无需修改网络或额外训练。
利用高激活值稀疏且空间局部化的特性，实现从特征图直接高效鲁棒地提取特征。

实验结果

研究问题

RQ1未经显式检测或训练，局部特征能否自然地从预训练CNN激活张量中涌现？
RQ2这些涌现的局部特征能否在无需视觉词袋的情况下有效用于图像检索中的空间验证？
RQ3在结合基于扩散的重排序时，基于激活张量的局部特征进行空间匹配是否能提升检索精度？
RQ4该方法能否在不同网络架构与全局池化策略下均实现最先进性能？
RQ5DSM带来的性能提升是否源于其改善了扩散过程的初始顶级图像选择，而非局部特征本身？

主要发现

DSM在多个网络与池化方法下，于ROxf、ROxf+R1M、RPar和RPar+R1M基准上均实现了最先进mAP与mP@10性能。
当基于DSM进行空间验证的顶级图像作为扩散起点时，性能提升最大（mAP最高提升5个百分点，mP@10最高提升6个百分点）。
在多个基准上，DSM优于表现最佳的DELF方法[27]，即使未使用局部描述子或视觉词袋。
该方法对所有基线方法均通过重排序实现性能提升，其中在ROxf与RPar数据集上增益最大。
极少数情况下性能下降（最多1 mAP点）归因于特征多样性有限以及激活图之间高度相关。
所提方法成功结合了全局描述子的高效性与局部匹配的几何精度，在不修改网络或额外训练的前提下实现了高性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。