[论文解读] Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition
该论文提出 SelaVPR,一种对预训练基础模型进行全局-局部混合适应的视觉地点识别方法,使用轻量级适配器和互近邻局部损失实现两阶段 VPR 的快速、精准,并且极少微调。
Recent studies show that vision models pre-trained in generic visual learning tasks with large-scale data can provide useful feature representations for a wide range of visual perception problems. However, few attempts have been made to exploit pre-trained foundation models in visual place recognition (VPR). Due to the inherent difference in training objectives and data between the tasks of model pre-training and VPR, how to bridge the gap and fully unleash the capability of pre-trained models for VPR is still a key issue to address. To this end, we propose a novel method to realize seamless adaptation of pre-trained models for VPR. Specifically, to obtain both global and local features that focus on salient landmarks for discriminating places, we design a hybrid adaptation method to achieve both global and local adaptation efficiently, in which only lightweight adapters are tuned without adjusting the pre-trained model. Besides, to guide effective adaptation, we propose a mutual nearest neighbor local feature loss, which ensures proper dense local features are produced for local matching and avoids time-consuming spatial verification in re-ranking. Experimental results show that our method outperforms the state-of-the-art methods with less training data and training time, and uses about only 3% retrieval runtime of the two-stage VPR methods with RANSAC-based spatial verification. It ranks 1st on the MSLS challenge leaderboard (at the time of submission). The code is released at https://github.com/Lu-Feng/SelaVPR.
研究动机与目标
- 通过在不进行完全微调的情况下,改造基础模型来弥合预训练与视觉地点识别(VPR)任务之间的差距。
- 生成全局与局部特征,以支持快速检索和在 VPR 中的准确再排序。
- 通过利用密集局部特征进行直接跨匹配,消除再排序中的昂贵的空间验证。
- 在主要 VPR 基准上演示数据高效的训练与实时检索能力。
提出的方法
- 引入全局适配:在每个变换器块的 MHA 之后添加串联适配器,在 MLP 中添加并行适配器,以专注于判别性地标。
- 引入局部适配:在骨干网络之后添加上卷积层,生成用于再排序的密集局部特征图。
- 在特征图上使用 GeM 池化以获取用于候选检索的全局特征。
- 通过查询/候选局部特征之间的互近邻来计算局部匹配,并将匹配数量用作再排序分数(不进行空间验证)。
- 使用联合损失训练:全局三元组损失 Lg 加上局部特征互近邻损失 Ll,权重为 lambda,用于优化用于再排序的局部特征。
- 基础架构使用冻结的 DINOv2 ViT-L/14 主干网络,配合轻量级适配器(参数高效的迁移学习)。
实验结果
研究问题
- RQ1轻量级适配器是否可以在不进行全面微调的情况下实现对预训练基础模型的无缝适应以用于 VPR?
- RQ2全局-局部混合适配是否同时提升全局检索和局部再排序在 VPR 中的性能?
- RQ3互近邻局部特征损失是否能在不使用 RANSAC 的情况下产生适用于再排序的有效密集局部特征?
- RQ4与标准基准的最先进 VPR 方法相比,SelaVPR 的性能和运行时如何?
主要发现
| 数据集 | R@1 | R@5 | R@10 |
|---|---|---|---|
| Tokyo24/7 | 94.0 | 96.8 | 97.5 |
| MSLS-val | 90.8 | 96.4 | 97.2 |
| MSLS-challenge | 73.5 | 87.5 | 90.6 |
| Pitts30k-test | 92.8 | 96.8 | 97.7 |
- SelaVPR 在多個 VPR 基准上实现最先进的结果,在提交时在 MSLS 挑战榜单上排名第一。
- SelaVPR(global) 在全局检索方面超越许多单阶段方法,在各数据集上实现强大的 R@5 和 R@10。
- 完整的 SelaVPR(全局+局部适配)提供显著收益,在再排序后 Tokyo24/7 和 Pitts30k 上的 R@1 有显著提升。
- 局部适配在 Tokyo24/7 上带来大幅的 R@1 提升,凸显密集局部特征在挑战性条件下的优势。
- SelaVPR 实现了无需空间验证的再排序,检索运行时间仅为基于 RANSAC 的两阶段方法的约 3% 左右,总运行时间在 Pitts30k-test 也低于 4%。
- 消融研究表明全局和局部适配都必需,且参数高效微调在提升性能的同时保持了迁移性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。