[論文レビュー] PlanaReLoc: Camera Relocalization in 3D Planar Primitives via Region-Based Structure Matching
PlanaReLoc は、3D 平面地図とクロスモーダル平面マッチングを用いて、テクスチャ付き地図・ポーズ事前情報・シーン単位の学習なしで 6-DoF カメラ姿勢を推定する平面中心のリローカリゼーションパイプラインを導入します。
While structure-based relocalizers have long strived for point correspondences when establishing or regressing query-map associations, in this paper, we pioneer the use of planar primitives and 3D planar maps for lightweight 6-DoF camera relocalization in structured environments. Planar primitives, beyond being fundamental entities in projective geometry, also serve as region-based representations that encapsulate both structural and semantic richness. This motivates us to introduce PlanaReLoc, a streamlined plane-centric paradigm where a deep matcher associates planar primitives across the query image and the map within a learned unified embedding space, after which the 6-DoF pose is solved and refined under a robust framework. Through comprehensive experiments on the ScanNet and 12Scenes datasets across hundreds of scenes, our method demonstrates the superiority of planar primitives in facilitating reliable cross-modal structural correspondences and achieving effective camera relocalization without requiring realistically textured/colored maps, pose priors, or per-scene training. The code and data are available at https://github.com/3dv-casia/PlanaReLoc .
研究の動機と目的
- 平面プリミティブをコンパクトで構造に焦点を当てた地図表現としてリローカリゼーションの動機づけを行う。
- クエリ画像と3D 平面地図間でクロスモーダルな平面領域をマッチングする平面中心パイプラインを開発する。
- テクスチャ付き地図やポーズ事前情報を要件とせず、平面対応を用いて 6-DoF カメラ姿勢を推定・改良する。
- 大規模な室内データセットでの効率と精度を実証する。
- クロスモーダルな登録とシーン毎の学習不足に対するロバスト性を示す。
提案手法
- monocular plane recovery を用いてクエリ画像から平面プリミティブを抽出し、それぞれをセグメントからの 2D 平面埋め込みとして表現する。
- 3D 地図プリミティブを別個のオブジェクト(形状)エンコーダとシーン(姿勢)エンコーダで符号化し、それらを地図埋め込みに融合する。
- Transformer ベースのマッチングモジュールを用いて、クエリと地図の埋め込み間のソフトなクロスモーダル平面対応を推定するための学習済み割当マトリクスを生成する。
- 対応した平面対応から初期姿勢を推定するために、回転と平行移動のデュアル最小解法を用いた初期解と、RANSAC ベースのロバストな改良を適用する。
- 任意で、プリミティブごとの深度整列による姿勢の改良を行い、姿勢と平面パラメータのオフセットを同時最適化して深度レンダリング残差を最小化する。
実験結果
リサーチクエスチョン
- RQ1平面プリミティブと3D 平面地図は、テクスチャ付き地図やシーン毎の学習なしで信頼できるクロスモーダルカメラリローカリゼーションを支援できるか。
- RQ2平面中心の埋め込みとマッチングフレームワークは、クエリ画像と3D 平面地図間の平面対応を確立するのにどれだけ有効か。
- RQ3平面の豊富さと姿勢改良がリローカリゼーションの精度とロバスト性に及ぼす影響は。
主な発見
| Map trunc. | Coarse init. | Map appearance | ∆R (°) ↓ | ∆t (m) ↓ | Pose Recall (0.2 m, 10°)↑ | Pose Recall (0.5 m, 15°)↑ | Pose Recall (1.0 m, 30°)↑ | Time (s/iter) |
|---|---|---|---|---|---|---|---|---|
| Full proposed | - | - | 0.60 | 0.20 | 48.5 | 73.1 | 81.8 | ∼0.5 |
- PlanaReLoc は地図のテクスチャ、ポーズ事前情報、シーン毎の学習に依存せずに高いリローカリゼーション精度を達成する。
- 平面中心の埋め込みとトランスフォーマーに基づくマッチングは、クエリと地図間の効果的なクロスモーダル平面対応を実現する。
- 平面対応とロバストな RANSAC ベースの回転・並進初期化を用いた姿勢推定は、ScanNet および 12Scenes データセットで競合的または優れた結果を示す。
- プリミティブごとの深度整列による後処理は、回転と並進の精度を追加的に向上させ、実行時間コストは modest。
- アブレーションにより、シーン/オブジェクトエンコーダと位置埋め込みがマッチング性能に大きく寄与することが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。