QUICK REVIEW

[論文レビュー] Training a Convolutional Neural Network for Appearance-Invariant Place Recognition

Ruben Gomez-Ojeda, Manuel López-Antequera|arXiv (Cornell University)|May 27, 2015

Robotics and Sensor-Based Localization参考文献 28被引用数 52

ひとこと要約

本論文は、外観不変の視覚的場所認識を目的とした新しい畳み込みニューラルネットワーク（CNN）を提案する。三重損失を用いて画像を128次元空間に埋め込み、類似した場所が近くなるように学習する。DBoW2 や CaffeNet よりも外観変化（季節、照明、視点）に対して優れた耐性を示し、さらに高速かつコンパクトな記述子を用いるため、リアルタイムで長期間にわたるロボット応用に適している。

ABSTRACT

Place recognition is one of the most challenging problems in computer vision, and has become a key part in mobile robotics and autonomous driving applications for performing loop closure in visual SLAM systems. Moreover, the difficulty of recognizing a revisited location increases with appearance changes caused, for instance, by weather or illumination variations, which hinders the long-term application of such algorithms in real environments. In this paper we present a convolutional neural network (CNN), trained for the first time with the purpose of recognizing revisited locations under severe appearance changes, which maps images to a low dimensional space where Euclidean distances represent place dissimilarity. In order for the network to learn the desired invariances, we train it with triplets of images selected from datasets which present a challenging variability in visual appearance. The triplets are selected in such way that two samples are from the same location and the third one is taken from a different place. We validate our system through extensive experimentation, where we demonstrate better performance than state-of-art algorithms in a number of popular datasets.

研究の動機と目的

季節、時間帯、照明の変化といった深刻な外観変化に起因する視覚的場所認識の課題に対処すること。
手作業で設計された記述子に依存し、知覚的変化に対して失敗する伝統的なBag-of-Words手法（例：DBoW2）の限界を克服すること。
一般的な事前学習済みネットワークの特徴量ではなく、エンドツーエンドで場所認識用に訓練されたCNNを開発すること。
計算コストが低く、リアルタイムで長期間にわたるロボット用途に適したコンパクトな128次元記述子を実現すること。

提案手法

同じ場所からの画像2枚（アーキテクチャとポジティブ）と異なる場所からの1枚（ネガティブ）からなる画像三重組みを使用し、三重損失を用いてCNNを訓練する。
ノルトランド（4つの季節）、アールデリー（昼間／夜間）、マラガ都市（多様な視点）といった視覚的変動が著しいデータセットを用い、ネットワークに外観変化への耐性を学習させる。
入力画像をユークリッド距離が場所の類似性に反比例する128次元の特徴空間に埋め込む。
三重マージン損失を用いて、ポジティブペア間の距離を最小化し、ネガティブペア間の距離を最大化するようにネットワークを最適化する。
CaffeNet や他の大規模な事前学習済みモデルではなく、タスクに特化した小型CNNアーキテクチャを採用し、計算負荷を低減する。
固定された128次元の記述子長を採用することで、ループクロージャーシステムにおける類似度計算や誤分類行列の算出を効率的に行える。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドで訓練されたCNNは、一般化された特徴抽出器や伝統的なBoW手法よりも、外観変化に対して優れた耐性を示せるか？
RQ2多様で外観が変化するデータセット上で三重損失を用いて学習させることで、天候、照明、季節の変化に対する不変性をネットワークが学習できるか？
RQ3タスクに特化した小型CNNは、CaffeNet や他の大規模な事前学習済みネットワークを凌駕する場所認識の正確性を達成しながら、計算コストを低減できるか？
RQ4本手法は、DBoW2 や一般的なCNN特徴量と比較して、極端な外観変化を伴う実世界のデータセットにおいて、性能と効率の点でどのように優れているか？

主な発見

提案手法はノルトランドデータセットで優れた性能を示し、k=5およびk=10の両方において、すべての対角幅でDBoW2 や CaffeNet よりも顕著に高いインライア比率を達成した。
アールデリーデータセット（昼間対夜間）においても、極端な照明変化の課題にかかわらず、本手法はDBoW2 や CaffeNet を上回るインライア比率を示した。
CPU上では550ms、GPU上では10msで画像処理が可能であり、CaffeNet よりも3倍速く、CNNベースの推論においてDBoW2 よりも顕著に効率的である。
DBoW2 の200～500語のヒストグラムやCaffeNet の64k記述子と比較して、128次元の記述子ははるかにコンパクトであり、ストレージおよび計算コストを低減する。
季節的変化や視点の変化に対しても高い正確性を達成しており、三重損失による学習によって強力な不変性が学習されたことが示された。
高速性、コンパクトさ、耐性の観点から、モバイルロボットや自動運転の長期間にわたるリアルタイム応用に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。