[论文解读] Hierarchical Scene Coordinate Classification and Regression for Visual Localization
本文提出了一个分层的自上而下场景坐标网络,结合每个像素位置条件的 FiLM-like 模块,以提升单幅图像 RGB 定位,在多个数据集上达到最先进的结果,并在大环境下具有可扩展性能。
Visual localization is critical to many applications in computer vision and robotics. To address single-image RGB localization, state-of-the-art feature-based methods match local descriptors between a query image and a pre-built 3D model. Recently, deep neural networks have been exploited to regress the mapping between raw pixels and 3D coordinates in the scene, and thus the matching is implicitly performed by the forward pass through the network. However, in a large and ambiguous environment, learning such a regression task directly can be difficult for a single network. In this work, we present a new hierarchical scene coordinate network to predict pixel scene coordinates in a coarse-to-fine manner from a single RGB image. The network consists of a series of output layers, each of them conditioned on the previous ones. The final output layer predicts the 3D coordinates and the others produce progressively finer discrete location labels. The proposed method outperforms the baseline regression-only network and allows us to train compact models which scale robustly to large environments. It sets a new state-of-the-art for single-image RGB localization performance on the 7-Scenes, 12-Scenes, Cambridge Landmarks datasets, and three combined scenes. Moreover, for large-scale outdoor localization on the Aachen Day-Night dataset, we present a hybrid approach which outperforms existing scene coordinate regression methods, and reduces significantly the performance gap w.r.t. explicit feature matching methods.
研究动机与目标
- 在大尺度或模糊环境中推动健壮的单幅图像 RGB 定位。
- 开发一个分层的自上而下网络,预测离散的位置标签和连续的三维坐标。
- 引入逐元素条件层,将粗略位置信息传播到更精细的预测。
- 在小型/中型数据集上展示最先进的定位性能,并为大型户外环境提供可扩展的方法。
- 展示一个紧凑模型能够与仅回归的基线或既有方法竞争甚至超越。
提出的方法
- 提出一个分层场景坐标网络,在多个层级预测离散位置标签,并为像素预测连续的三维坐标。
- 在每个输出层之前使用条件层,根据预测的粗略位置信息标签调制特征(FiLM 风格,但按空间位置进行)。
- 使用联合损失进行训练,结合各层的分类和三维坐标回归:L = w1 Lc^1 + w2 Lc^2 + w3 Lr。
- 采用自全局到局部的设计,在粗粒度层具有逐步增大的感受野,在细粒度层具有更小、局部化的效应。
- 通过使用足够细的位置信息标签而不进行最终回归步骤,启用仅分类的变体。
- 在 7-Scenes、12-Scenes、Cambridge Landmarks,以及大规模的 i7-/i12-/i19-Scenes 上进行验证,并以混合方法验证 Aachen Day-Night。
实验结果
研究问题
- RQ1相比仅回归的模型,分层自上而下的位置信息标签在大型或模糊场景中是否能改善歧义消解?
- RQ2所提出的条件化机制如何相对于回归基线和现有方法影响准确性、对尺度的鲁棒性以及模型规模?
- RQ3分层深度/宽度和感受野选择对跨数据集及组合场景的定位性能有何影响?
- RQ4如何通过稀疏特征和图像检索,将该方法改编用于户外/大尺度定位(Aachen Day-Night)?
- RQ5带条件的联合分类-回归公式是否能实现最先进的单幅图像 RGB 定位?
主要发现
- 分层条件化网络在 7-Scenes、12-Scenes 和 Cambridge Landmarks 上实现了最先进的单幅图像 RGB 定位。
- 与仅回归的基线相比,该方法对大环境(i7-/i12-/i19-Scenes)显得更鲁棒,尤其是在组合场景上。
- 该模型保持紧凑,与某些先前的集成方法(如 ESAC)相比显著减小规模,同时保持有竞争力的精度。
- 在 Aachen Day-Night 上,使用分层网络的混合方法结合稀疏特征和图像检索,显著优于 ESAC,并在不存储大型描述符数据库的情况下接近基于特征的方法。
- 条件化机制至关重要:移除条件会显著降低性能,尤其是在更大环境中。
- 数据增强通常有助于所提方法,尽管在不同数据集上的效果不同;在某些大尺度设置下,该方法在不进行增强的情况下仍保持强劲性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。