[论文解读] Large-Scale Image Retrieval with Attentive Deep Local Features
本文提出DELF(DEep Local Feature),一种基于CNN的局部特征描述子,结合注意力机制,用于大规模图像检索,仅使用图像级别标签进行训练。通过在一次前向传播中联合学习关键点选择与局部特征提取,该方法在大规模基准测试中达到最先进性能,在包含超过100万张图像的新引入的Google-Landmarks数据集上,显著优于先前的全局和局部描述子。
We propose an attentive local feature descriptor suitable for large-scale image retrieval, referred to as DELF (DEep Local Feature). The new feature is based on convolutional neural networks, which are trained only with image-level annotations on a landmark image dataset. To identify semantically useful local features for image retrieval, we also propose an attention mechanism for keypoint selection, which shares most network layers with the descriptor. This framework can be used for image retrieval as a drop-in replacement for other keypoint detectors and descriptors, enabling more accurate feature matching and geometric verification. Our system produces reliable confidence scores to reject false positives---in particular, it is robust against queries that have no correct match in the database. To evaluate the proposed descriptor, we introduce a new large-scale dataset, referred to as Google-Landmarks dataset, which involves challenges in both database and query such as background clutter, partial occlusion, multiple landmarks, objects in variable scales, etc. We show that DELF outperforms the state-of-the-art global and local descriptors in the large-scale setting by significant margins. Code and dataset can be found at the project webpage: https://github.com/tensorflow/models/tree/master/research/delf .
研究动机与目标
- 开发一种针对真实世界挑战(如遮挡、杂乱和视角变化)优化的深度局部特征描述子,适用于大规模图像检索。
- 设计一种仅使用图像级别注释的弱监督训练范式,避免昂贵的关键点或图像块级别标注。
- 将注意力机制与描述子集成,实现语义关键点选择,提升特征相关性和匹配准确性。
- 引入一个大规模、多样化的基准数据集——Google-Landmarks,包含100万张数据库图像和10万张查询图像,以支持对检索系统的严格评估。
- 证明所提出系统在大规模设置下相比最先进全局和局部描述子具有更优性能。
提出的方法
- 提出DELF,一种基于CNN的局部特征描述子,仅使用地标数据集中图像级别标签进行端到端训练。
- 引入一种共享架构的注意力机制,利用与描述子相同的网络对关键点进行评分和选择,实现在一次前向传播中联合完成特征提取与选择。
- 采用两阶段训练流程:首先在大规模地标数据集上使用图像级别监督进行预训练,随后在包含关键点标注的子集上进行微调,以提升定位精度。
- 通过加权平均策略将DELF得分与全局描述子(如DIR)的得分进行后期融合,以提升性能。
- 利用几何验证和基于索引的DELF特征最近邻检索,根据匹配特征对数据库图像进行排序。
- 利用一种新型大规模数据集Google-Landmarks,包含130万张图像,覆盖1.3万个地标和10万张查询图像,其中包含非匹配查询,用于测试系统鲁棒性。
实验结果
研究问题
- RQ1仅使用图像级别监督训练的深度局部特征描述子是否能在大规模图像检索中实现更优性能?
- RQ2与描述子共享参数的注意力机制是否能提升关键点选择和匹配准确性?
- RQ3在包含遮挡、杂乱和尺度变化等挑战性条件的大规模基准测试中,所提系统表现如何?
- RQ4将DELF与全局描述子结合是否能带来优于单独使用任一方法的性能?
- RQ5所提系统对数据库中无正确匹配项的查询是否具有鲁棒性?
主要发现
- 在Oxf105k上,DELF与DIR结合并使用几何验证后,平均平均精度(mAP)达到90.0%;在Par106k上达到92.8%,显著优于先前方法。
- 在新引入的Google-Landmarks数据集上,DELF对部分遮挡、背景杂乱和多个地标等挑战性条件表现出强鲁棒性,即使在非匹配查询场景下仍保持高召回率。
- 基于注意力的关键点选择方法能有效过滤杂乱区域,定性对比显示其在特征定位方面优于基于L2范数的选择方法和CONGAS。
- DELF+FT+ATT在Oxf5k上达到83.8%的mAP,在Par6k上达到85.0%,即使不进行融合也表现强劲,且与全局描述子结合后性能进一步提升。
- 系统生成的置信度分数可靠,有助于排除误报,尤其在数据库中无正确匹配项的情况下表现突出。
- 定性结果表明,DELF能成功匹配不同视角下的地标和物体,而CONGAS在同一情形下无法检索到任何相关图像。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。