QUICK REVIEW

[论文解读] Geometric Loss Functions for Camera Pose Regression with Deep Learning

Alex Kendall, Roberto Cipolla|arXiv (Cornell University)|Apr 2, 2017

Advanced Vision and Imaging参考文献 47被引用 82

一句话总结

本文提出用于端到端基于深度学习的相机位姿回归的几何损失函数，以几何感知的目标（如重投影误差和不确定性加权损失）替代PoseNet的简单损失。通过利用场景几何结构并自动学习最优的位姿分量加权，该方法显著提升了精度——在室内数据集上将中位数定位误差降低至0.13米和4.48度，并在大型室外场景中实现亚米级精度，缩小了与传统SIFT方法的差距，同时保持实时推理性能。

ABSTRACT

Deep learning has shown to be effective for robust and real-time monocular image relocalisation. In particular, PoseNet is a deep convolutional neural network which learns to regress the 6-DOF camera pose from a single image. It learns to localize using high level features and is robust to difficult lighting, motion blur and unknown camera intrinsics, where point based SIFT registration fails. However, it was trained using a naive loss function, with hyper-parameters which require expensive tuning. In this paper, we give the problem a more fundamental theoretical treatment. We explore a number of novel loss functions for learning camera pose which are based on geometry and scene reprojection error. Additionally we show how to automatically learn an optimal weighting to simultaneously regress position and orientation. By leveraging geometry, we demonstrate that our technique significantly improves PoseNet's performance across datasets ranging from indoor rooms to a small city.

研究动机与目标

解决尽管PoseNet具有鲁棒性和高速性，但其度量精度较差的问题。
消除在平衡位置与姿态回归时对人工超参数调优的需求。
通过将损失函数建立在三维场景几何和重投影误差基础上，提升位姿回归性能。
实现端到端训练，确保在从室内房间到大型城市区域等多样化环境中的鲁棒性与可扩展性。

提出的方法

基于2D-3D重投影误差提出几何损失函数，直接优化场景一致性。
引入不确定性加权损失，自动学习位置与姿态分量之间的最优权重。
使用可微分的重投影误差层，将几何约束反向传播至网络。
采用同方差不确定性估计，自适应地在训练过程中平衡位置与旋转损失。
在单阶段训练流程中端到端应用损失函数，避免单独的优化步骤。
仅使用RGB图像进行训练，通过一次前向传播回归6-DOF相机位姿。

实验结果

研究问题

RQ1几何约束能否提升基于深度学习的相机位姿回归的度量精度？
RQ2能否消除在平衡位置与姿态损失时对人工超参数调优的需求？
RQ3优化重投影误差是否能提升在多样化环境中的泛化能力？
RQ4基于几何的损失与标准回归损失相比，在鲁棒性和精度方面表现如何？

主要发现

在7 Scenes数据集上，中位数定位误差降至0.13米（位置）和4.48度（姿态），显著优于PoseNet的基线表现。
在Dubrovnik数据集上，该方法实现了7.9米的平均位置误差和4.4度的平均姿态误差，优于原始PoseNet，并接近SIFT-based方法的性能。
所提出的损失函数在室内场景（如Chess和Fire）上相较原始PoseNet损失将误差降低了高达70%。
在50,000平方米的大型室外场景中，该方法实现了亚米级精度（0.88米中位数位置误差），证明了其在大规模区域中的可扩展性。
基于不确定性的损失自动学习了最优权重，消除了人工调优的需要。
该方法在保持接近传统SIFT-based方法性能的同时，实现了实时推理（每张图像5毫秒），而后者需要更大的输入图像且速度慢得多。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。