[論文レビュー] GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization
GeoCLIP は、CLIPベースの画像特徴を高次元のGPS埋め込みと整合させる画像→GPS検索フレームワークを導入し、世界規模の地理位置特定を高いデータ効率で実現し、質的なテキストベースの地理位置特定機能を提供する。
Worldwide Geo-localization aims to pinpoint the precise location of images taken anywhere on Earth. This task has considerable challenges due to immense variation in geographic landscapes. The image-to-image retrieval-based approaches fail to solve this problem on a global scale as it is not feasible to construct a large gallery of images covering the entire world. Instead, existing approaches divide the globe into discrete geographic cells, transforming the problem into a classification task. However, their performance is limited by the predefined classes and often results in inaccurate localizations when an image's location significantly deviates from its class center. To overcome these limitations, we propose GeoCLIP, a novel CLIP-inspired Image-to-GPS retrieval approach that enforces alignment between the image and its corresponding GPS locations. GeoCLIP's location encoder models the Earth as a continuous function by employing positional encoding through random Fourier features and constructing a hierarchical representation that captures information at varying resolutions to yield a semantically rich high-dimensional feature suitable to use even beyond geo-localization. To the best of our knowledge, this is the first work employing GPS encoding for geo-localization. We demonstrate the efficacy of our method via extensive experiments and ablations on benchmark datasets. We achieve competitive performance with just 20% of training data, highlighting its effectiveness even in limited-data settings. Furthermore, we qualitatively demonstrate geo-localization using a text query by leveraging CLIP backbone of our image encoder. The project webpage is available at: https://vicentevivan.github.io/GeoCLIP
研究の動機と目的
- 地球規模の画像ギャラリーを構築せずに、世界中の画像の位置を特定するという課題を動機づけ、解決する。
- CLIPに触発された画像→GPS検索モデルを提案し、画像特徴とGPS埋め込みを整列させる。
- Equal Earth Projection(EEP)とRandom Fourier Features(RFF)を用い、等地球投影と階層的(マルチレゾリューション)戦略でGPS座標を高次元・多解像度の特徴として符号化するロケーションエンコーダを開発する。
- CLIPのテキスト機能を通じて、データ効率の高い性能と質的なテキストベースの地理位置特定を実証する。
- アブレーションやデータが限られた状況で、ベンチマークデータセット上で経験的に検証する。
提案手法
- タスク固有の適応のため、2つの学習可能な線形層を備えたCLIPベースの画像エンコーダ(固定されたViT-L/14バックボーン)を使用する。
- Equal Earth Projection (EEP)、Random Fourier Features (RFF)、および指数的なシグマスケジュールを持つ階層的(マルチレゾリューション)戦略を用いて、2D GPS座標を高次元の埋め込みに写像するロケーションエンコーダを導入する。
- 対応するGPS埋め込みと画像埋め込みを整列させる対照学習損失で訓練し、非対応のGPS埋め込みを動的な負例キューで遠ざける。
- SimCLRに類似したデータ拡張とGPS摂動ノイズを用いて、ロケーションエンコーダの空間的滑らかさを促進する。
- 評価時には地理的位置推定を画像→GPS検索として扱い、画像埋め込みとGPS埋め込みを比較する;GPS座標のCLIPテキスト埋め込みを活用してテキストベースの地理位置推定を有効にする。
実験結果
リサーチクエスチョン
- RQ1完全な画像ギャラリーなしで、CLIPに触発された画像→GPS検索フレームワークが世界規模の競争力のある地理位置特定を達成できるか?
- RQ2等地球投影、ランダムフーリエ特徴、および階層解像度でGPS座標を符号化することは、スケールを跨いだ定位精度を向上させるか?
- RQ3分類ベースのアプローチと比較して、限定データ設定におけるGeoCLIPのデータ効率はどの程度か?
- RQ4CLIPテキストバックボーンを活用して、テキストベースの地理位置特定をモデルはサポートできるか?
- RQ5動的GPSキューによるネガティブサンプリングが定位性能に与える影響はどの程度か?
主な発見
| 手法 | 街路 | 都市 | 地域 | 国 | 大陸 | 1 km | 25 km | 200 km | 750 km | 2500 km |
|---|---|---|---|---|---|---|---|---|---|---|
| [L]kNN, σ=4 [26] | 7.2 | 19.4 | 26.9 | 38.9 | 55.9 | - | - | - | - | - |
| PlaNet | 8.5 | 24.8 | 34.3 | 48.4 | 64.6 | - | - | - | - | - |
| CPlaNet | 10.2 | 26.5 | 34.6 | 48.6 | 64.6 | - | - | - | - | - |
| ISNs [12] | 10.5 | 28.0 | 36.6 | 49.7 | 66.0 | - | - | - | - | - |
| Translocator [14] | 11.8 | 31.1 | 46.7 | 58.9 | 80.1 | - | - | - | - | - |
| GeoDecoder [5] | 12.8 | 33.5 | 45.9 | 61.0 | 76.1 | - | - | - | - | - |
| GeoCLIP (Ours) | 14.11 | 34.47 | 50.65 | 69.67 | 83.82 | - | - | - | - | - |
| ISNs [12] | 0.05 | 0.6 | 4.2 | 15.5 | 38.5 | - | - | - | - | - |
| Transocator [14] | 0.5 | 1.1 | 8.0 | 25.5 | 48.3 | - | - | - | - | - |
| GeoDecoder [5] | 0.7 | 1.5 | 8.7 | 26.9 | 50.5 | - | - | - | - | - |
| GeoCLIP (Ours) | 0.6 | 3.1 | 16.9 | 45.7 | 74.1 | - | - | - | - | - |
- GeoCLIPは、訓練データのわずか20%で競争力のある性能を達成し、いくつかの閾値で従来のSOTAに接近または上回る。
- On Im2GPS3k, GeoCLIP reaches 1 km: 14.11, 25 km: 34.47, 200 km: 50.65, 750 km: 69.67, 2500 km: 83.82.
- On GWS15k, GeoCLIP outperforms prior SOTA with 1 km: 0.6, 25 km: 3.1, 200 km: 16.9, 750 km: 45.7, 2500 km: 74.1.
- Qualitative results show text-based queries (e.g.,
- mapping to geographic regions using the CLIP backbone.
- アブレーションは、Equal Earth Projection (EEP)、Random Fourier Features (RFF)、動的負例キュー、および階層的学習がマルチスケールの性能向上に重要であることを示している。
- GeoCLIP のロケーションエンコーダは、多目的なGPS埋め込みを生成し、地理的ローカライゼーションを超えるタスクにも再利用できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。