Skip to main content
QUICK REVIEW

[论文解读] Training a Convolutional Neural Network for Appearance-Invariant Place Recognition

Ruben Gomez-Ojeda, Manuel López-Antequera|arXiv (Cornell University)|May 27, 2015
Robotics and Sensor-Based Localization参考文献 28被引用 52
一句话总结

本文提出一种专为外观不变视觉位置识别而训练的新型卷积神经网络(CNN),使用三元组损失将图像嵌入128维空间,使相似位置的图像距离更近。该方法在严重外观变化(如季节、光照、视角变化)下,相较于SOTA方法DBoW2和CaffeNet展现出更强鲁棒性,同时显著更快,且使用紧凑的描述符。

ABSTRACT

Place recognition is one of the most challenging problems in computer vision, and has become a key part in mobile robotics and autonomous driving applications for performing loop closure in visual SLAM systems. Moreover, the difficulty of recognizing a revisited location increases with appearance changes caused, for instance, by weather or illumination variations, which hinders the long-term application of such algorithms in real environments. In this paper we present a convolutional neural network (CNN), trained for the first time with the purpose of recognizing revisited locations under severe appearance changes, which maps images to a low dimensional space where Euclidean distances represent place dissimilarity. In order for the network to learn the desired invariances, we train it with triplets of images selected from datasets which present a challenging variability in visual appearance. The triplets are selected in such way that two samples are from the same location and the third one is taken from a different place. We validate our system through extensive experimentation, where we demonstrate better performance than state-of-art algorithms in a number of popular datasets.

研究动机与目标

  • 解决在严重外观变化(如季节、昼夜、光照变化)下的视觉位置识别挑战。
  • 克服传统词袋方法(如DBoW2)依赖手工设计描述符、在感知变化下失效的局限性。
  • 开发一种端到端训练的CNN用于位置识别,而非使用预训练网络的通用特征。
  • 在计算成本低、描述符紧凑(128维)的前提下实现高性能,适用于实时、长期的机器人应用。

提出的方法

  • 使用三元组损失在图像三元组上训练CNN:两个来自同一位置的图像(锚点和正样本),一个来自不同位置的图像(负样本)。
  • 使用具有高视觉差异性的数据集——如Nordland(四个季节)、Alderley(白天/夜晚)和Málaga Urban(多变视角)——使网络暴露于外观变化中。
  • 将输入图像嵌入128维特征空间,其中欧氏距离反映位置的不相似性。
  • 通过三元组边界损失优化网络,使正样本对的距离最小化,负样本对的距离最大化。
  • 采用更小、面向任务的CNN架构,而非CaffeNet等大型预训练模型,从而降低计算负载。
  • 采用固定128维描述符长度,便于在回环检测系统中高效计算相似度和混淆矩阵。

实验结果

研究问题

  • RQ1端到端训练的CNN在位置识别任务中,是否能比通用特征提取器或传统BoW方法在外观变化下表现出更强的鲁棒性?
  • RQ2在多样化、具有外观变化的数据集上使用三元组损失进行训练,是否能使网络学习到对天气、光照和季节变化的不变性?
  • RQ3更小、面向任务的CNN是否能在保持更低计算成本的同时,优于大型预训练网络(如CaffeNet)在位置识别准确率上的表现?
  • RQ4在具有极端外观变化的真实世界数据集上,该方法与SOTA方法(如DBoW2和通用CNN特征)相比,在性能和效率上表现如何?

主要发现

  • 在Nordland数据集上,所提CNN表现优异,无论k=5还是k=10,在所有对角线宽度下,其内点率显著高于DBoW2和CaffeNet。
  • 在Alderley数据集(白天与夜晚对比)上,尽管面临极端光照挑战,该方法在内点率上仍优于DBoW2和CaffeNet。
  • 该方法在CPU上处理图像耗时550ms,在GPU上仅需10ms,速度是CaffeNet的三倍,且在基于CNN的推理中显著优于DBoW2的效率。
  • 128维描述符远比DBoW2的200–500词直方图或CaffeNet的64k描述符更紧凑,显著降低了存储与计算成本。
  • 该网络在季节和视角变化下实现了高精度的位置识别,证明了通过三元组训练学习到的强大不变性。
  • 由于其速度、紧凑性与鲁棒性,该系统适用于移动机器人和自动驾驶中的长期、实时应用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。