Skip to main content
QUICK REVIEW

[论文解读] Understanding Image Retrieval Re-Ranking: A Graph Neural Network Perspective

Xuanmeng Zhang, Minyue Jiang|arXiv (Cornell University)|Dec 14, 2020
Advanced Image and Video Retrieval Techniques参考文献 45被引用 25
一句话总结

本文提出一种基于图神经网络(GNN)的重排序方法,将图像检索重排序重新建模为高并行性的GNN过程,在显著加速计算的同时保持或提升检索准确率。通过建模k近邻图并利用GNN的消息传递机制,该方法在单张GPU上将重排序时间从89.2秒降低至9.4毫秒,实现在Market-1501、VeRi-776和University-1652等五个基准数据集上的实时后处理。

ABSTRACT

The re-ranking approach leverages high-confidence retrieved samples to refine retrieval results, which have been widely adopted as a post-processing tool for image retrieval tasks. However, we notice one main flaw of re-ranking, i.e., high computational complexity, which leads to an unaffordable time cost for real-world applications. In this paper, we revisit re-ranking and demonstrate that re-ranking can be reformulated as a high-parallelism Graph Neural Network (GNN) function. In particular, we divide the conventional re-ranking process into two phases, i.e., retrieving high-quality gallery samples and updating features. We argue that the first phase equals building the k-nearest neighbor graph, while the second phase can be viewed as spreading the message within the graph. In practice, GNN only needs to concern vertices with the connected edges. Since the graph is sparse, we can efficiently update the vertex features. On the Market-1501 dataset, we accelerate the re-ranking processing from 89.2s to 9.4ms with one K40m GPU, facilitating the real-time post-processing. Similarly, we observe that our method achieves comparable or even better retrieval results on the other four image retrieval benchmarks, i.e., VeRi-776, Oxford-5k, Paris-6k and University-1652, with limited time cost. Our code is publicly available.

研究动机与目标

  • 解决基于邻居的重排序方法计算复杂度过高而限制实际部署的问题。
  • 将重排序重新建模为图神经网络(GNN)函数,以利用其固有的并行性实现高效推理。
  • 通过利用GNN的稀疏图计算和GPU加速,实现在图像检索中实时后处理。
  • 在大幅降低时间成本的同时,保持或提升在多样化基准数据集上的检索性能。

提出的方法

  • 从特征嵌入中构建k近邻(k-NN)图,以建模图像之间的拓扑关系。
  • 将重排序过程形式化为两阶段GNN操作:(1) 通过k-NN进行图构建,(2) 通过消息传递进行特征传播。
  • 应用两层GNN聚合邻居信息,其中每个节点基于其连接的邻居更新自身特征。
  • 利用k-NN图的稀疏性,实现高效的GPU加速推理,仅更新连接的顶点。
  • 采用基于GNN的查询扩展机制,沿图结构传播置信度分数和特征。
  • 实现硬件友好的并行GNN流水线,避免串行操作,实现在GPU上亚10毫秒的推理时间。

实验结果

研究问题

  • RQ1重排序能否被重新建模为图神经网络(GNN)函数以提升计算效率?
  • RQ2与传统的基于邻居的方法相比,基于GNN的重排序在检索准确率和速度方面表现如何?
  • RQ3GNN固有的并行性是否能够实现在大规模图像检索数据集上的实时重排序?
  • RQ4与k-reciprocal和SCA方法相比,基于GNN的方法在降低时间成本的同时是否保持或提升性能?

主要发现

  • 在Market-1501上,基于GNN的方法将单张K40m GPU上的重排序时间从89.2秒降低至9.4毫秒,实现9,500倍加速。
  • 在Market-1501上,mAP提升6.39%,Recall@1提升0.83%,优于所有基线方法,包括k-reciprocal和SCA。
  • 在VeRi-776上,mAP达到88.61%,Recall@1达到96.42%,在所有对比方法中mAP最高,Recall@1排名第二。
  • 在Oxford-5k和Paris-6k上,mAP分别达到92.95%和96.21%,GPU上的推理时间仅为5.2毫秒。
  • 在University-1652上,mAP提升10.98%,Recall@1提升11.81%,Recall@10提升5.98%,达到最先进性能。
  • GPU优化的GNN重排序在VeRi-776上耗时5.2毫秒,在University-1652上耗时10.2毫秒,相比CPU-based方法如k-reciprocal和SCA,速度提升达数量级。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。