QUICK REVIEW

[論文レビュー] InLoc: Indoor Visual Localization with Dense Matching and View Synthesis

Hajime Taira, Masatoshi Okutomi|arXiv (Cornell University)|Mar 28, 2018

Robotics and Sensor-Based Localization参考文献 2被引用数 46

ひとこと要約

InLocは難易度の高い室内の変化に対して堅牢な6DoF姿勢推定を実現する密なCNNベースのマッチングと仮想ビュー合成を用いた大規模な室内視定位パイプラインを提案します。新しいデータセットを導入し、最先端手法に対して有意な改善を示します。

ABSTRACT

We seek to predict the 6 degree-of-freedom (6DoF) pose of a query photograph with respect to a large indoor 3D map. The contributions of this work are three-fold. First, we develop a new large-scale visual localization method targeted for indoor environments. The method proceeds along three steps: (i) efficient retrieval of candidate poses that ensures scalability to large-scale environments, (ii) pose estimation using dense matching rather than local features to deal with textureless indoor scenes, and (iii) pose verification by virtual view synthesis to cope with significant changes in viewpoint, scene layout, and occluders. Second, we collect a new dataset with reference 6DoF poses for large-scale indoor localization. Query photographs are captured by mobile phones at a different time than the reference 3D map, thus presenting a realistic indoor localization scenario. Third, we demonstrate that our method significantly outperforms current state-of-the-art indoor localization approaches on this new challenging data.

研究の動機と目的

テクスチャが乏しく反復的な構造を持つ大規模な室内環境における正確な6DoF定位の課題に対処する。
効率的な候補姿勢検索、密な特徴量ベースの姿勢推定、そしてビュー合成による検証を組み合わせた定位パイプラインを提案する。
スマートフォン撮影のクエリ画像と時間的にずれた参照を含む、現実的な室内定位データセットを作成・公開する。
密なマッチングとビュー合成検証が既存の室内定位手法を上回ることを示す。

提案手法

疎特徴の不足を克服するため、CNN由来の特徴量（conv5を先に、次にconv3）をグリッド上で用いた粗→細の密なマッチングを姿勢推定に適用する。
NetVLAD記述子で候補データベース画像を取得し、RANSAC内点で再ランク付けして候補数を削減する（トップ10）。
データベース画像からの深度支援3D構造を用いてP3P-LO-RANSACで6DoF姿勢を推定する。
推定姿勢から仮想ビューをレンダリングしてクエリと比較し、DenseSIFT/RootSIFT記述子を用いて画像全体の正と負の証拠を測定することで照明変化に頑健な姿勢検証を行う。
CNN特徴の2値化によりメモリを削減しつつ性能低下をほとんど生じさせず、スケーラブルなマッチングを実現する。
ベースライン（Direct 2D-3D、Disloc、SparsePE付きNetVLAD）と比較・評価し、構成要素（DensePE、DensePV）をアブレーションする。

実験結果

リサーチクエスチョン

RQ1テクスチャレスな室内シーンにおいて、密な特徴マッチングはスパース特徴手法と比較して姿勢推定をどのように改善できるか？
RQ2大きな視点変化と照明変化を伴う室内環境におけるビュー合成による姿勢検証が定位精度に与える影響は何か？
RQ3密なマッチングと堅牢な検索・検証を組み合わせることで、大規模な室内データに対して最先端の室内定位手法より測定可能な改善が得られるか？

主な発見

手法	0.25m	0.50m	1.00m
Direct2D-3D	11.9	15.8	22.5
Disloc [9] + SparsePE	20.1	29.5	41.0
NetVLAD [6] + SparsePE	21.3	30.7	42.6
InLoc (NetVLAD + DensePE + DensePV)	38.9	56.5	69.9

InLocは新しい大規模データセットで最先端の室内定位ベースラインを上回り、0.25m、0.50m、1.00mの閾値で正しく定位されたクエリ数に著しい改善を示した。
Dense pose estimation (DensePE)はNetVLADベースの検索を用いた場合、スパース特徴マッチングより約15ポイントの定位率向上をもたらす。
Pose verification with view synthesis (DensePV)は有意かつ一貫した改善を提供し、特に位置精度が1.5m以内の場合に顕著。
Binary CNN featuresはメモリを32x削減し、性能低下はほとんどなく（0.5mで<1%）。
Compared to Disloc and NetVLAD baselines, InLoc achieves notably higher localization accuracy (e.g., 0.25m: 38.9% vs 11.9%/21.3%), demonstrating the benefit of dense matching and view synthesis.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。