QUICK REVIEW

[論文レビュー] SPP-Net: Deep Absolute Pose Regression with Synthetic Views

Pulak Purkait, Cheng Zhao|arXiv (Cornell University)|Dec 9, 2017

Robotics and Sensor-Based Localization参考文献 37被引用数 38

ひとこと要約

SPP-Net は、スパース特徴記述子と合成ビューを活用することで一般化性能を向上させる、絶対的6次元カメラポーズ回帰用の軽量ディープニューラルネットワークを提案する。3D点群と特徴対応モデルを用いて、実際の訓練データに合成されたポーズを追加することで、モデルサイズを著しく削減し、未観測ポーズに対してもより頑健な性能を達成した。

ABSTRACT

Image based localization is one of the important problems in computer vision due to its wide applicability in robotics, augmented reality, and autonomous systems. There is a rich set of methods described in the literature how to geometrically register a 2D image w.r.t.\ a 3D model. Recently, methods based on deep (and convolutional) feedforward networks (CNNs) became popular for pose regression. However, these CNN-based methods are still less accurate than geometry based methods despite being fast and memory efficient. In this work we design a deep neural network architecture based on sparse feature descriptors to estimate the absolute pose of an image. Our choice of using sparse feature descriptors has two major advantages: first, our network is significantly smaller than the CNNs proposed in the literature for this task---thereby making our approach more efficient and scalable. Second---and more importantly---, usage of sparse features allows to augment the training data with synthetic viewpoints, which leads to substantial improvements in the generalization performance to unseen poses. Thus, our proposed method aims to combine the best of the two worlds---feature-based localization and CNN-based pose regression--to achieve state-of-the-art performance in the absolute pose estimation. A detailed analysis of the proposed architecture and a rigorous evaluation on the existing datasets are provided to support our method.

研究の動機と目的

深層学習ベースのポーズ回帰におけるドメイン適応問題に対処すること。具体的には、訓練データとテストデータの分布のずれにより、未観測のポーズでモデルが失敗する問題を解消すること。
重いCNNベースの特徴抽出をスパース特徴記述子に置き換えることで、モデルの複雑性を低減し、効率性を向上させることで、より小型で高速なネットワークを実現すること。
3D点群とノイズ／外れ値モデルを用いて、実際のデータに存在しないポーズ領域をカバーする現実的な合成訓練データを生成することで、一般化性能を向上させること。
幾何的特徴ベース手法とエンドツーエンドのディープラーニングの長所を組み合わせ、より優れた精度と頑健性を実現すること。
合成データ拡張を活用することで、大規模で事前学習済みのCNN（例：PoseNet）を上回る性能を示す、軽量で事前学習を行わないDNNが、ベンチマークデータセット上で最先端の性能を達成できることを示すこと。

提案手法

ネットワークは、RGB画像の代わりにスパース特徴記述子（例：SIFTに類似）を入力とすることで、モデルサイズの削減と、効率的な合成データ生成を可能にする。
合成訓練データは、既知のカメラポーズを用いて3D点群から合成ビューをレンダリングすることで生成され、現実の条件を模倣するためのリアルなノイズと外れ値が追加されている。
視点変化に対して頑健性を高めるために、空間ピラミッドプーリング（SPP）モジュールを採用し、複数スケールの特徴を集約する。
ネットワークアーキテクチャは、空間ピラミッド構造における1×1畳み込み層とマックスプーリング層から構成され、その後に6次元ポーズ（3次元並進と3次元回転）の回帰を目的とした全結合層が続く。
幾何的整合性を持つスパース特徴に依存するため、事前学習を経ずに、実データと合成データの組み合わせからエンドツーエンドで訓練を実施する。
3Dマップと特徴対応を用いて、現実的な合成特徴セットを生成することで、従来の合成データ生成技術を改善し、リアルなRGBレンダリングの必要性を回避する。

実験結果

リサーチクエスチョン

RQ13D点群と特徴対応を用いた合成データ生成は、未観測ポーズへの深層学習ベースのポーズ回帰の一般化性能を著しく向上させることができるか？
RQ2密なCNN特徴ではなくスパース特徴記述子を用いることで、より効率的かつ正確なポーズ回帰ネットワークが実現可能か？
RQ3軽量で事前学習を行わないディープネットワークが、PoseNetのような大規模で事前学習済みモデルと比較して、絶対ポーズ推定で最先端の性能を達成できるか？
RQ4モデル容量を変化させた場合、ネットワークの性能はどのように変化するか？また、限られた実データに対して、大規模なアーキテクチャでは過学習が生じるか？
RQ5合成データ拡張によって、幾何的ベースと学習ベースのポーズ推定手法の性能格差はどの程度縮まるか？

主な発見

Seven Scenes データセットの 'Heads' シーケンスでは、SPP-Net が平均位置誤差 0.11 m、角度誤差 8.06° を達成し、PoseNet の 0.31 m と 27.4° を著しく上回った。
Cambridge Landmark データセットの 'Street' では、4×パラメータバージョンを用いることで、平均位置誤差を 33.9 m から 17.5 m、角度誤差を 31.2° から 20.2° に削減した。
より小型の SPP-Net（0.25×パラメータ）は僅かな性能低下しか示さず、容量が小さくても強力な一般化性能と頑健性を示した。
より大きな SPP-Net（4×パラメータ）は、わずかな性能向上しか得られず、特に 'Shop Facade' のような小規模データセットでは過学習の兆候が見られた。
Seven Scenes および Cambridge Landmark ベンチマークにおいて、SPP-Net は学習ベース手法として最先端の結果を達成し、既存のCNNベースのアプローチを精度と効率性の両面で上回った。
リアルなノイズと外れ値を含む合成データの活用により、実際の訓練データにカバーされていないポーズ空間の領域でも一般化性能が著しく向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。