[论文解读] Unifying Deep Local and Global Features for Image Search
DELG 将深度局部和全局图像特征统一为一个端到端可训练的模型,通过结合 GeM 池化用于全局特征和带有自编码器的降维的注意力局部特征选择,实现最先进的图像检索和实例级识别。
Image retrieval is the problem of searching an image database for items that are similar to a query image. To address this task, two main types of image representations have been studied: global and local image features. In this work, our key contribution is to unify global and local features into a single deep model, enabling accurate retrieval with efficient feature extraction. We refer to the new model as DELG, standing for DEep Local and Global features. We leverage lessons from recent feature learning work and propose a model that combines generalized mean pooling for global features and attentive selection for local features. The entire network can be learned end-to-end by carefully balancing the gradient flow between two heads -- requiring only image-level labels. We also introduce an autoencoder-based dimensionality reduction technique for local features, which is integrated into the model, improving training efficiency and matching performance. Comprehensive experiments show that our model achieves state-of-the-art image retrieval on the Revisited Oxford and Paris datasets, and state-of-the-art single-model instance-level recognition on the Google Landmarks dataset v2. Code and models are available at https://github.com/tensorflow/models/tree/master/research/delf .
研究动机与目标
- 激发将全局与局部图像表示整合用于检索效率和准确性的研究动机。
- 开发一个统一的基于CNN的模型,联合学习全局描述符、关键点注意力和局部描述符。
- 通过小心控制全局和局部头之间的梯度流动,消除对 Patch 级监督的需求。
- 引入卷积自编码器以在不进行后处理 PCA 的情况下降低局部特征的维度。
- 在 Revisited Oxford/Paris 与 Google Landmarks v2 数据集上展示最先进的性能。
提出的方法
- 使用 CNN 主干从中产生浅层(S)和深层(D)特征图,从而推导全局和局部特征。
- 全局特征通过对 D 进行广义均值池化(GeM)形成,随后通过一个可学习的 whitening 层产生一个 2048 维的全局描述符。
- 局部特征从 S 获得,经过一个 1x1 卷积自编码器以得到紧凑的描述符,同时有一个注意力图 M 选择判别性区域。
- 端到端训练,共同优化三种损失:基于 ArcFace 的余弦分类器用于全局特征、用于局部特征的自编码器重构损失,以及基于注意力的 Softmax 损失以鼓励判别性的局部选择。
- 为在联合训练中保持有意义的局部表示,来自局部注意力和重构损失的梯度被阻止反向传播到 CNN 主干。
- 该模型仅使用图像级监督进行训练,平衡全局和局部头之间的梯度流以避免降级分层特征表示。
- 一个可选的二值化变体(DELG ⋆)将局部特征以二值化形式存储以用于大规模检索,并讨论了性能权衡。
实验结果
研究问题
- RQ1一个端到端的单模型是否能够有效学习全局描述符与带注意力权重的局部特征以用于图像检索?
- RQ2将自编码器集成到局部描述符并使用梯度控制是否能够在不需要 Patch 级监督的情况下实现联合优化?
- RQ3GeM 池化和 ArcFace 损失在统一的 DELG 模型中如何相互作用以获得鲁棒的全局特征?
- RQ4端到端训练在标准基准(Oxford/Paris 重新访问、GLDv2)上的检索与识别性能,与专门的多模型管道相比的影响如何?
主要发现
- DELG 在 Revisited Oxford、Revisited Paris 和 Google Landmarks v2 上以单一统一模型达到最先进的结果。
- GeM 池化结合 ArcFace 损失提升全局特征性能,且带有轻量级自编码器的注意力引导局部特征路径产生强大的局部描述符。
- 配合适当的梯度截断的联合训练保持了分层特征表示,并在与单独训练的基线相比中获得有竞争力甚至更优的表现。
- 该统一模型在仅全局和全局+局部重新排序设置中均优于先前方法,包括具有 1M 敌 distractors 的大规模场景。
- 二值化变体(DELG ⋆)为超大数据库提供了一个内存高效的选项,检索准确率具有竞争力。
- 使用 DELG 的局部特征再排序显著提升性能,尤其在大规模数据集上。
- 在 GLDv2 上,DELG 变体实现领先的 mAP 和 μAP 性能,全局-仅和全局+局部配置在检索和识别任务上均表现出色。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。