QUICK REVIEW

[论文解读] Improved Visual Relocalization by Discovering Anchor Points

Soham Saha, Girish Varma|arXiv (Cornell University)|Nov 11, 2018

Robotics and Sensor-Based Localization被引用 25

一句话总结

本文提出了一种新颖的深度学习方法用于视觉重定位，通过发现从当前视角可见的相关锚点（即地标）而非依赖最近的锚点。通过将任务建模为多任务学习问题，同时进行最相关锚点的分类与相对偏移量的回归，该方法在定位精度方面实现了显著提升，在剑桥地标数据集的街景场景中将中位数误差减少了超过8米，并在所有7 Scenes室内数据集中实现了小于0.2米的定位误差，优于先前的最先进模型（如使用几何重投影损失的PoseNet）。

ABSTRACT

We address the visual relocalization problem of predicting the location and camera orientation or pose (6DOF) of the given input scene. We propose a method based on how humans determine their location using the visible landmarks. We define anchor points uniformly across the route map and propose a deep learning architecture which predicts the most relevant anchor point present in the scene as well as the relative offsets with respect to it. The relevant anchor point need not be the nearest anchor point to the ground truth location, as it might not be visible due to the pose. Hence we propose a multi task loss function, which discovers the relevant anchor point, without needing the ground truth for it. We validate the effectiveness of our approach by experimenting on CambridgeLandmarks (large scale outdoor scenes) as well as 7 Scenes (indoor scenes) using variousCNN feature extractors. Our method improves the median error in indoor as well as outdoor localization datasets compared to the previous best deep learning model known as PoseNet (with geometric re-projection loss) using the same feature extractor. We improve the median error in localization in the specific case of Street scene, by over 8m.

研究动机与目标

解决在无GPS环境（如室内和大规模室外区域）下的视觉重定位挑战。
通过建模人类导航行为，利用可见且相关的地标（锚点）而非最近或几何最优的点，提升定位精度。
通过设计一种自监督损失函数，实现端到端的锚点发现，从而在训练过程中无需真实锚点标注。
使用标准CNN特征提取器，在各种环境（包括大规模室外场景和小型室内场景）中实现鲁棒性能。
证明锚点发现相比直接回归或仅替换特征的方法，能带来更好的泛化能力和更高的精度。

提出的方法

在路径地图上均匀定义锚点作为定位的参考地标。
训练一个深度神经网络，将输入图像分类为预定义的锚点之一，以识别最相关的可见地标。
网络同时回归相对于预测锚点的6-DOF（3D位置和3D方向）偏移量。
提出一种新颖的多任务损失函数，可在训练过程中自动发现相关锚点，而无需真实锚点标签。
损失函数同时最小化分类误差和相对偏移量回归误差，支持端到端训练，无需显式锚点标注。
使用多种CNN特征提取器（GoogleNet、DenseNet、MobileNet）评估精度与推理速度之间的权衡。

实验结果

研究问题

RQ1深度学习模型能否在无需真实锚点标注的情况下，自动发现用于定位的最相关可见锚点？
RQ2使用学习得到的、可见的锚点而非最近或几何最优的锚点，是否能在室内和室外环境中均提升定位精度？
RQ3所提出的具有自监督损失函数的多任务学习框架，与直接回归基线（如使用几何重投影损失的PoseNet）相比表现如何？
RQ4在定位精度与模型复杂度之间权衡下，锚点之间的最优间隔是多少？
RQ5该方法能否在使用轻量化特征提取器（如MobileNet）的同时保持高精度和实时性能？

主要发现

与先前最先进方法PoseNet（使用几何重投影损失）相比，该方法在剑桥地标数据集的街景场景中将中位数定位误差减少了超过8米。
在使用与PoseNet相同的GoogleNet特征提取器时，该方法在剑桥地标数据集6个室外场景中的4个场景中，实现了中位数定位误差小于1.5米且方向误差小于4度。
在7 Scenes数据集的所有室内场景中，该方法实现了中位数定位误差小于0.2米，显著优于先前基于深度学习的方法。
使用DenseNet作为特征提取器时，该方法在Shop Facade场景中达到93.76%的准确率，在King’s College场景中达到93.52%，优于使用相同特征提取器的简单回归器。
基于MobileNet的实现FLOPs为569M，低于GoogleNet（760M）和DenseNet（5998M），且在大多数场景中中位数误差低于GoogleNet，证明了其在精度-效率权衡上的优越性。
定性结果表明，所学习的锚点通常比最近的锚点更具可见性（例如，不易被树木或遮挡物遮挡），验证了该方法在选择语义相关地标方面的能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。