Skip to main content
QUICK REVIEW

[論文レビュー] Image-based Localization with Spatial LSTMs.

Florian Walch, Caner Hazırbaş|arXiv (Cornell University)|Nov 23, 2016
Robotics and Sensor-Based Localization参考文献 52被引用数 41
ひとこと要約

本論文は、CNN特徴マップに空間的に構造化されたLSTMを適用することで文脈的理解を向上させるとともに受容 field を拡大するCNN+LSTMアーキテクチャを提案する。この手法により、テクスチャが乏しい、または運動歪みのある環境のような挑戦的な状況下でも、画像ベースの局所化性能が顕著に向上する。本手法は、屋内および屋外のベンチマークにおいて、SIFTベースの手法および先行する深層学習手法を上回る性能を示した。

ABSTRACT

In this work we propose a new CNN+LSTM architecture for camera pose regression for indoor and outdoor scenes. CNNs allow us to learn suitable feature representations for localization that are robust against motion blur and illumination changes. We make use of LSTM units on the CNN output in spatial coordinates in order to capture contextual information. This substantially enlarges the receptive field of each pixel leading to drastic improvements in localization performance. We provide extensive quantitative comparison of CNN-based vs SIFT-based localization methods, showing the weaknesses and strengths of each. Furthermore, we present a new large-scale indoor dataset with accurate ground truth from a laser scanner. Experimental results on both indoor and outdoor public datasets show our method outperforms existing deep architectures, and can localize images in hard conditions, e.g., in the presence of mostly textureless surfaces.

研究の動機と目的

  • テクスチャが乏しい、またはコントラストが低い環境下におけるSIFTベースの局所化手法の限界を克服すること。
  • 運動歪みや照明変化にさらされても頑健な深層学習ベースの局所化を向上させること。
  • 特徴マップ全体の空間的文脈を捉えることで、より良いポーズ回帰を実現するCNN+LSTMアーキテクチャの開発。
  • レーザースキャナーで測定した高精度な真値を備えた大規模な屋内データセットを新たに開発し、ベンチマーク用に提供すること。
  • 深層学習を用いて、挑戦的な局所化状況で最先端の性能を達成すること。

提案手法

  • CNNが入力画像から階層的特徴を抽出し、照明やぼやけの変化に対しても頑健な表現を提供する。
  • 空間的LSTMをCNN特徴マップの空間次元に適用し、長距離の文脈的依存関係をモデル化する。
  • LSTMユニットはグリッド状の空間的順序で特徴を処理し、各特徴マップの位置が画像全体の文脈的情報に注目できるようにする。
  • アーキテクチャは空間座標全体に共通のLSTM層を用いることで、標準のCNNよりも有効な受容 field を拡大する。
  • 最終的なポーズ予測は、最終的なLSTM隠れ状態から全結合層を用いて回帰する。
  • カメラポーズパラメータの回帰損失を用いて、エンド・トゥ・エンドでモデルを学習する。

実験結果

リサーチクエスチョン

  • RQ1空間的LSTMの統合により、標準のCNNと比較して、局所化精度がどの程度向上するか?
  • RQ2提案手法は、テクスチャが乏しい、またはコントラストが低い屋内シーンにおいて、SIFTベースの局所化を上回るか?
  • RQ3空間的LSTMアーキテクチャは、運動歪みや照明変化に対してどの程度の頑健性を向上させるか?
  • RQ4本モデルは大規模で現実世界の屋内および屋外データセットでどの程度の性能を示すか?
  • RQ5空間的LSTMによる文脈モデリングは、挑戦的な局所化条件下での一般化性能にどのような影響を与えるか?

主な発見

  • 提案手法は、特にテクスチャが乏しい環境下で、SIFTベースの手法に比べて優れた局所化精度を達成した。
  • 文脈的特徴学習のおかげで、運動歪みや照明変動に対して顕著な頑健性を示した。
  • 空間的LSTMはCNN特徴の有効な受容 field を顕著に拡大し、局所化精度を向上させた。
  • 本手法は、公開の屋内および屋外データセットにおいて、既存の深層学習アーキテクチャを上回った。
  • レーザースキャナーで測定した真値を備えた新規の大規模な屋内データセットにより、局所化システムの評価がより信頼性あるものとなった。
  • 定量的評価では、ベンチマークデータセット全体で並進および回転の平均絶対誤差(MAE)に顕著な向上が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。