[论文解读] PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization
PoseNet 提出一种深度卷积神经网络,能够实时从单张 RGB 图像直接回归 6-DOF 相机位姿,室外大场景下精度达到约 2m 和 6°,室内精度达到约 0.5m 和 10°。它利用 ImageNet 的迁移学习和运动结构(SfM)实现自动位姿标注,从而实现端到端训练,仅需极少人工标注,并在运动模糊和光照变化等挑战性条件下表现出鲁棒性能。
We present a robust and real-time monocular six degree of freedom relocalization system. Our system trains a convolutional neural network to regress the 6-DOF camera pose from a single RGB image in an end-to-end manner with no need of additional engineering or graph optimisation. The algorithm can operate indoors and outdoors in real time, taking 5ms per frame to compute. It obtains approximately 2m and 6 degree accuracy for large scale outdoor scenes and 0.5m and 10 degree accuracy indoors. This is achieved using an efficient 23 layer deep convnet, demonstrating that convnets can be used to solve complicated out of image plane regression problems. This was made possible by leveraging transfer learning from large scale classification data. We show the convnet localizes from high level features and is robust to difficult lighting, motion blur and different camera intrinsics where point based SIFT registration fails. Furthermore we show how the pose feature that is produced generalizes to other scenes allowing us to regress pose with only a few dozen training examples. PoseNet code, dataset and an online demonstration is available on our project webpage, at http://mi.eng.cam.ac.uk/projects/relocalisation/
研究动机与目标
- 开发一种实时、端到端的深度学习系统,用于单目 6-DOF 相机重定位,无需初始位姿估计或特征匹配。
- 通过利用大规模图像分类数据集的迁移学习,减少对大规模人工标注数据集的依赖。
- 在运动模糊、动态物体和光照变化等挑战性视觉条件下,实现鲁棒的重定位。
- 证明预训练网络的深度特征仅需几十个训练样本即可良好泛化到新场景。
- 表明训练 CNN 的高层特征可直接用于回归连续相机位姿,绕过传统的 SLAM 或特征匹配流程。
提出的方法
- 训练一个 23 层深度卷积神经网络(PoseNet),端到端地从单张 RGB 图像回归 6-DOF 相机位姿(3 个平移分量,3 个旋转分量)。
- 通过使用 ImageNet 预训练权重初始化网络,并在特定场景数据上微调,应用迁移学习以提升收敛速度和性能。
- 利用场景视频序列的运动结构(SfM)自动生成相机位姿标签,避免人工标注。
- 使用预测位姿与真实位姿之间的均方误差作为损失函数进行网络训练。
- 使用显著性图分析图像中哪些区域对位姿预测贡献最大,揭示其对无纹理表面和动态物体的鲁棒性。
- 应用 t-SNE 可视化特征向量,分析其几何结构并评估其作为位姿相关、单射函数的性质。
实验结果
研究问题
- RQ1深度卷积神经网络能否实时从单张 RGB 图像直接回归连续的 6-DOF 相机位姿?
- RQ2从大规模分类数据集迁移学习在多大程度上可减少对大规模人工标注重定位数据集的需求?
- RQ3该位姿回归器在运动模糊、动态物体和光照变化等挑战性视觉条件下的鲁棒性如何?
- RQ4学习到的特征表示能否仅用几十个额外训练样本就泛化到新场景?
- RQ5网络内部表示是否为相机位姿的平滑、单射函数,从而实现无需跟踪或特征对应关系的直接回归?
主要发现
- PoseNet 在最大 50,000m² 的室外大场景中实现约 2m 和 6° 的重定位精度,在室内实现约 0.5m 和 10° 的精度,每帧推理仅需 5ms。
- 仅需几十个额外训练样本即可将网络泛化到未见场景,展现出强大的 few-shot 泛化能力。
- 显著性图显示,PoseNet 同时依赖显著的点特征和大面积无纹理区域,使其在 SIFT 失效时仍具鲁棒性。
- 网络能有效抑制行人等动态物体的影响,表明其对场景杂波和噪声具有内在不变性。
- t-SNE 可视化证实,即使在训练数据与目标任务无关的情况下,特征向量仍与位姿形成平滑且一一对应的流形结构。
- 该系统效率极高,模型权重仅需 50MB 存储空间,每帧推理耗时 5ms,在速度和内存使用上优于 SIFT 和最近邻 CNN 基线方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。