[论文解读] PlanaReLoc: Camera Relocalization in 3D Planar Primitives via Region-Based Structure Matching
PlanaReLoc 引入一个以平面为核心的回定位管线,利用 3D 平面地图和跨模态平面匹配,在无需纹理地图、姿态先验或逐场景训练的情况下估计 6-DoF 相机位姿。
While structure-based relocalizers have long strived for point correspondences when establishing or regressing query-map associations, in this paper, we pioneer the use of planar primitives and 3D planar maps for lightweight 6-DoF camera relocalization in structured environments. Planar primitives, beyond being fundamental entities in projective geometry, also serve as region-based representations that encapsulate both structural and semantic richness. This motivates us to introduce PlanaReLoc, a streamlined plane-centric paradigm where a deep matcher associates planar primitives across the query image and the map within a learned unified embedding space, after which the 6-DoF pose is solved and refined under a robust framework. Through comprehensive experiments on the ScanNet and 12Scenes datasets across hundreds of scenes, our method demonstrates the superiority of planar primitives in facilitating reliable cross-modal structural correspondences and achieving effective camera relocalization without requiring realistically textured/colored maps, pose priors, or per-scene training. The code and data are available at https://github.com/3dv-casia/PlanaReLoc .
研究动机与目标
- 用平面原语作为紧凑、结构化地图表示来驱动回定位的动机。
- 开发一个以平面为中心的管线,在查询图像和 3D 平面地图之间进行跨模态平面区域匹配。
- 在不需要纹理地图或姿态先验的情况下,利用平面对应关系估计并 refined 6-DoF 相机位姿。
- 在大规模室内数据集上展示效率和精度。
- 展示对跨模态配准的鲁棒性以及缺乏逐场景训练的情形的鲁棒性。
提出的方法
- 利用单目平面恢复从查询图像中提取平面原语,并将每个原语表示为其分段的二维平面嵌入。
- 用单独的对象(形状)编码器和场景(姿态)编码器对 3D 地图原语进行编码,并将它们融入地图嵌入。
- 使用基于 Transformer 的匹配模块,在查询和地图嵌入之间推断软性、跨模态的平面对应关系,并得到一个学习得到的分配矩阵。
- 利用匹配到的平面对应关系,通过双最小解算器进行旋转和平移的初始位姿估计,随后进行基于 RANSAC 的鲁棒 refined。
- 可选地通过逐原 primitive 深度对齐对位姿进行再 refined,同时优化位姿和平面参数偏移以最小化深度渲染残差。
实验结果
研究问题
- RQ1平面原语和 3D 平面地图是否可以在不使用纹理地图或逐场景训练的情况下实现可靠的跨模态相机回定位?
- RQ2以平面为中心的嵌入和匹配框架在建立查询图像与 3D 平面地图之间的平面对应关系方面有多有效?
- RQ3平面丰富度和姿态 refined 对回定位精度和鲁棒性有何影响?
主要发现
| Map trunc. | Coarse init. | Map appearance | ∆R (°) ↓ | ∆t (m) ↓ | Pose Recall (0.2 m, 10°)↑ | Pose Recall (0.5 m, 15°)↑ | Pose Recall (1.0 m, 30°)↑ | Time (s/iter) |
|---|---|---|---|---|---|---|---|---|
| Full proposed | - | - | 0.60 | 0.20 | 48.5 | 73.1 | 81.8 | ∼0.5 |
- PlanaReLoc 在不依赖地图纹理、姿态先验或逐场景训练的前提下实现了强回定位精度。
- 以平面为中心的嵌入和基于 Transformer 的匹配使查询和地图之间的跨模态平面对应关系变得有效。
- 利用平面对应关系进行姿态估计,并结合鲁棒的 RANSAC 旋转与平移初始化,在 ScanNet 和 12Scenes 数据集上达到具有竞争力甚至优越的结果。
- 通过逐原 primitive 深度对齐的后续 refined 在旋转和平移精度上进一步提升,且运行成本适中。
- 消融研究表明场景/对象编码器和位置嵌入对匹配性能有显著贡献。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。