[論文レビュー] Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition
本論文は、軽量アダプターと相互最近傍局所損失を用いた視覚的場所認識のための基盤モデルのグローバル-ローカルハイブリッド適応である SelaVPR を提案する。軽量アダプターと相互最近傍局所損失を用いて、最小限のファインチューニングで迅速かつ高精度な二段階VPRを実現する。
Recent studies show that vision models pre-trained in generic visual learning tasks with large-scale data can provide useful feature representations for a wide range of visual perception problems. However, few attempts have been made to exploit pre-trained foundation models in visual place recognition (VPR). Due to the inherent difference in training objectives and data between the tasks of model pre-training and VPR, how to bridge the gap and fully unleash the capability of pre-trained models for VPR is still a key issue to address. To this end, we propose a novel method to realize seamless adaptation of pre-trained models for VPR. Specifically, to obtain both global and local features that focus on salient landmarks for discriminating places, we design a hybrid adaptation method to achieve both global and local adaptation efficiently, in which only lightweight adapters are tuned without adjusting the pre-trained model. Besides, to guide effective adaptation, we propose a mutual nearest neighbor local feature loss, which ensures proper dense local features are produced for local matching and avoids time-consuming spatial verification in re-ranking. Experimental results show that our method outperforms the state-of-the-art methods with less training data and training time, and uses about only 3% retrieval runtime of the two-stage VPR methods with RANSAC-based spatial verification. It ranks 1st on the MSLS challenge leaderboard (at the time of submission). The code is released at https://github.com/Lu-Feng/SelaVPR.
研究の動機と目的
- 基盤モデルを全ファインチューニングなしに適応させることで、事前学習と視覚的場所認識(VPR)タスク間のギャップを埋める。
- 高速な検索と正確なリランキングを支援するために、グローバルとローカルの特徴の両方を生成する。
- 密な局所特徴を直接のクロスマッチに活用して、リランキングにおける高コストな空間検証を排除する。
- 主要なVPRベンチマークでデータ効率の高い学習とリアルタイム検索能力を実証する。
提案手法
- グローバル適応を導入:各トランスフォーマーブロックの MHA の後に直列アダプターを、MLP に並列アダプターを追加して、識別性の高いランドマークに焦点を当てる。
- ローカル適応を導入:バックボーンの後にアップコンボリューション層を配置して、リランキング用の密な局所特徴マップを生成する。
- 特徴マップに GeM プーリングを適用して、候補検索のためのグローバル特徴を得る。
- クエリと候補の局所特徴間で相互最近傍を用いて局所マッチを計算し、マッチ数をリランキングスコアとして用いる(空間検証なし)。
- 結合損失で訓練:グローバルトリプレット損失 Lg に、局所特徴をリランキング向けに最適化する相互最近傍局所特徴損失 Ll(重み λ)を合わせて訓練。
- 基盤アーキテクチャは凍結された DINOv2 ViT-L/14 バックボーンと軽量アダプター(パラメータ効率の高い転移学習)を使用。
実験結果
リサーチクエスチョン
- RQ1軽量アダプターは、全ファインチューニングなしで事前学習済みの基盤モデルをVPRへシームレスに適応させることができるか?
- RQ2グローバルとローカルのハイブリッド適応は、VPRにおけるグローバル検索とローカルリランキングの両方を改善するか?
- RQ3相互最近傍局所特徴損失は、RANSACなしでリランキングに適した効果的な密集局所特徴を生み出せるか?
- RQ4標準ベンチマークおよび実行時間の観点で、SelaVPRは最先端のVPR手法とどう比較されるか?
主な発見
| データセット | R@1 | R@5 | R@10 |
|---|---|---|---|
| Tokyo24/7 | 94.0 | 96.8 | 97.5 |
| MSLS-val | 90.8 | 96.4 | 97.2 |
| MSLS-challenge | 73.5 | 87.5 | 90.6 |
| Pitts30k-test | 92.8 | 96.8 | 97.7 |
- SelaVPR は複数の VPR ベンチマークで最先端の結果を達成し、提出時点で MSLS チャレンジのリーダーボードで1位にランクされました。
- SelaVPR(global) はグローバル検索で多くのワンステージ法を上回り、データセット全体で強力な R@5 および R@10 を達成。
- 完全な SelaVPR(グローバル+ローカル適応)は大きな改善を提供し、リランキング後に Tokyo24/7 および Pitts30k で顕著な R@1 の改善をもたらした。
- 局所適応は Tokyo24/7 で大きな R@1 の利得を生み、困難な条件下で密な局所特徴の利点を強調している。
- SelaVPR は空間検証なしでリランキングを可能にし、RANSAC ベースの二段法より約3%程度の検索時間、Pitts30k-test で総計時間を4%未満に抑える。
- アブレーション研究は、グローバルとローカルの適応の両方の必要性を示し、パラメータ効率の良いチューニングが転移性を維持しつつ性能を向上させることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。