Skip to main content
QUICK REVIEW

[论文解读] Image-based Localization with Spatial LSTMs.

Florian Walch, Caner Hazırbaş|arXiv (Cornell University)|Nov 23, 2016
Robotics and Sensor-Based Localization参考文献 52被引用 41
一句话总结

本文提出一种CNN+LSTM架构,通过在CNN特征图上应用空间结构化的LSTM来增强上下文理解并扩展感受野,显著提升了在纹理缺失或运动模糊等复杂环境下的基于图像的定位性能。该方法在室内和室外基准测试中均优于基于SIFT的方法及先前的深度学习方法。

ABSTRACT

In this work we propose a new CNN+LSTM architecture for camera pose regression for indoor and outdoor scenes. CNNs allow us to learn suitable feature representations for localization that are robust against motion blur and illumination changes. We make use of LSTM units on the CNN output in spatial coordinates in order to capture contextual information. This substantially enlarges the receptive field of each pixel leading to drastic improvements in localization performance. We provide extensive quantitative comparison of CNN-based vs SIFT-based localization methods, showing the weaknesses and strengths of each. Furthermore, we present a new large-scale indoor dataset with accurate ground truth from a laser scanner. Experimental results on both indoor and outdoor public datasets show our method outperforms existing deep architectures, and can localize images in hard conditions, e.g., in the presence of mostly textureless surfaces.

研究动机与目标

  • 解决SIFT在纹理缺失或低对比度环境下的定位局限性。
  • 提升深度学习方法在运动模糊和光照变化下的鲁棒性。
  • 开发一种CNN+LSTM架构,以捕捉特征图之间的空间上下文,实现更优的姿态回归。
  • 引入一个新的大规模室内数据集,其地面真值具有激光扫描仪精度,用于基准测试。
  • 通过深度学习在具有挑战性的定位场景中实现最先进性能。

提出的方法

  • CNN从输入图像中提取分层特征,提供在光照和模糊变化下具有鲁棒性的表征。
  • 在CNN特征图的空间维度上应用空间LSTM,以建模长程上下文依赖关系。
  • LSTM单元以网格状的空间顺序处理特征,使每个特征图位置能够关注图像中的上下文信息。
  • 该架构在空间坐标上共享LSTM层,有效扩展了感受野,超越了标准CNN的范围。
  • 通过全连接层从最终LSTM隐藏状态回归预测最终姿态。
  • 模型通过在相机姿态参数上的回归损失进行端到端训练。

实验结果

研究问题

  • RQ1与标准CNN相比,空间LSTM的集成在多大程度上提升了定位精度?
  • RQ2在纹理缺失或低对比度的室内场景中,所提方法是否能优于基于SIFT的定位?
  • RQ3空间LSTM架构在多大程度上增强了对运动模糊和光照变化的鲁棒性?
  • RQ4该模型在大规模真实世界室内和室外数据集上的表现如何?
  • RQ5通过空间LSTM进行上下文建模,在具有挑战性的定位条件下对泛化能力有何影响?

主要发现

  • 所提方法在纹理缺失环境中的定位精度显著优于基于SIFT的方法。
  • 由于上下文特征学习,该模型在运动模糊和光照变化下表现出显著鲁棒性。
  • 空间LSTM显著扩展了CNN特征的有效感受野,提升了定位精度。
  • 该方法在公开的室内和室外数据集上均优于现有的深度学习架构。
  • 新引入的大规模室内数据集(具有激光扫描仪精度的地面真值)使定位系统的评估更加可靠。
  • 定量结果表明,在基准数据集上,平移和旋转的平均绝对误差(MAE)均有可测量的性能提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。