QUICK REVIEW

[论文解读] SPP-Net: Deep Absolute Pose Regression with Synthetic Views

Pulak Purkait, Cheng Zhao|arXiv (Cornell University)|Dec 9, 2017

Robotics and Sensor-Based Localization参考文献 37被引用 38

一句话总结

SPP-Net 提出了一种轻量级深度神经网络，用于绝对 6D 相机位姿回归，通过利用稀疏特征描述符和合成视图来提升泛化能力。通过使用 3D 点云和特征对应模型，将合成生成的位姿加入真实训练数据中，该方法在显著减小模型尺寸的同时，实现了最先进的性能，并提升了对未见位姿的鲁棒性。

ABSTRACT

Image based localization is one of the important problems in computer vision due to its wide applicability in robotics, augmented reality, and autonomous systems. There is a rich set of methods described in the literature how to geometrically register a 2D image w.r.t.\ a 3D model. Recently, methods based on deep (and convolutional) feedforward networks (CNNs) became popular for pose regression. However, these CNN-based methods are still less accurate than geometry based methods despite being fast and memory efficient. In this work we design a deep neural network architecture based on sparse feature descriptors to estimate the absolute pose of an image. Our choice of using sparse feature descriptors has two major advantages: first, our network is significantly smaller than the CNNs proposed in the literature for this task---thereby making our approach more efficient and scalable. Second---and more importantly---, usage of sparse features allows to augment the training data with synthetic viewpoints, which leads to substantial improvements in the generalization performance to unseen poses. Thus, our proposed method aims to combine the best of the two worlds---feature-based localization and CNN-based pose regression--to achieve state-of-the-art performance in the absolute pose estimation. A detailed analysis of the proposed architecture and a rigorous evaluation on the existing datasets are provided to support our method.

研究动机与目标

解决基于深度学习的位姿回归中的领域自适应问题，即模型因训练与测试数据之间的分布差异而在未见位姿上失效。
通过用稀疏特征描述符替代重型的 CNN 特征提取，降低模型复杂度并提升效率，从而实现更小、更快的网络。
通过使用 3D 点云和噪声/异常值模型生成逼真的合成训练数据，提升泛化性能，覆盖真实数据中未包含的位姿区域。
结合几何特征方法与端到端深度学习的优势，实现更优的精度与鲁棒性。
证明轻量级、非预训练的 DNN 可通过合成数据增强，在基准数据集上超越更大的、预训练的 CNN 模型（如 PoseNet）

提出的方法

网络使用稀疏特征描述符（例如 SIFT 类似）作为输入，而非原始 RGB 图像，从而减少模型大小，并支持高效的合成数据生成。
通过已知相机位姿从 3D 点云渲染合成视图来生成合成训练数据，并添加逼真的噪声和异常值以模拟真实世界条件。
采用空间金字塔池化（SPP）模块，以跨多尺度聚合特征，提升对视角变化的鲁棒性。
网络架构由空间金字塔配置中的 1x1 卷积和最大池化层组成，随后是全连接层，用于回归 6D 位姿（3D 平移和 3D 旋转）。
模型在真实与合成数据组合上从零开始端到端训练，无需预训练，同时利用稀疏特征的几何一致性。
该方法通过使用 3D 地图和特征对应关系，改进了先前的合成数据生成技术，生成逼真的合成特征集，避免了对逼真 RGB 渲染的需求。

实验结果

研究问题

RQ1使用 3D 点云和特征对应关系生成合成数据，能否显著提升基于深度学习的位姿回归对未见位姿的泛化能力？
RQ2使用稀疏特征描述符替代密集的 CNN 特征，是否能带来更高效且更准确的位姿回归网络？
RQ3与更大的、预训练的模型（如 PoseNet）相比，轻量级、非预训练的深度网络能否在绝对位姿估计中实现最先进的性能？
RQ4网络性能如何随模型容量变化而变化？在有限的真实数据上，更大的架构是否会引发过拟合？
RQ5合成数据增强在多大程度上弥合了基于几何与基于学习的位姿估计方法之间的性能差距？

主要发现

在 Seven Scenes 数据集上，SPP-Net 在 'Heads' 序列中实现了 0.11 m 的平均位置误差和 8.06° 的角度误差，显著优于 PoseNet 的 0.31 m 和 27.4°。
在 Cambridge Landmark 数据集上，使用 4× 参数版本的模型将 'Street' 序列的平均位置误差从 33.9 m 降低至 17.5 m，角度误差从 31.2° 降低至 20.2°。
更小的 SPP-Net（0.25× 参数）仅表现出轻微的性能下降，表明即使在容量降低的情况下，仍具有强大的泛化能力和鲁棒性。
更大的 SPP-Net（4× 参数）性能提升微乎其微，并在较小数据集（如 'Shop Facade'）上表现出过拟合的迹象。
该方法在 Seven Scenes 和 Cambridge Landmark 基准测试中，作为学习方法实现了最先进的结果，其精度和效率均优于现有的基于 CNN 的方法。
使用加入真实噪声和异常值的合成数据显著提升了泛化能力，尤其在真实训练数据未覆盖的位姿空间区域表现突出。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。