QUICK REVIEW

[論文レビュー] Leveraging Deep Visual Descriptors for Hierarchical Efficient Localization

Paul-Edouard Sarlin, Frédéric Debraine|arXiv (Cornell University)|Sep 4, 2018

Robotics and Sensor-Based Localization被引用数 44

ひとこと要約

この論文は、まず学習済みのグローバル画像記述子を使用して候補の場所を検索し、次に高価な局所の2D-3Dマッチング（SIFT）を実行して、都市規模でGPSが使えない環境においてセンチメートル精度の6自由度姿勢を推定する階層的な視覚ローカライゼーションパイプラインを提案します。モバイルデバイス上でリアルタイムに動作します。

ABSTRACT

Many robotics applications require precise pose estimates despite operating\nin large and changing environments. This can be addressed by visual\nlocalization, using a pre-computed 3D model of the surroundings. The pose\nestimation then amounts to finding correspondences between 2D keypoints in a\nquery image and 3D points in the model using local descriptors. However,\ncomputational power is often limited on robotic platforms, making this task\nchallenging in large-scale environments. Binary feature descriptors\nsignificantly speed up this 2D-3D matching, and have become popular in the\nrobotics community, but also strongly impair the robustness to perceptual\naliasing and changes in viewpoint, illumination and scene structure. In this\nwork, we propose to leverage recent advances in deep learning to perform an\nefficient hierarchical localization. We first localize at the map level using\nlearned image-wide global descriptors, and subsequently estimate a precise pose\nfrom 2D-3D matches computed in the candidate places only. This restricts the\nlocal search and thus allows to efficiently exploit powerful non-binary\ndescriptors usually dismissed on resource-constrained devices. Our approach\nresults in state-of-the-art localization performance while running in real-time\non a popular mobile platform, enabling new prospects for robotics research.\n

研究の動機と目的

大きく変化する環境で限られたモバイル計算資源下での正確な6-DoFローカライゼーションの必要性に対処する。
グローバルに学習された記述子を用いて粗い場所検索を行い、精密な姿勢推定のための高価な局所特徴を組み合わせる。
ターゲット環境のトレーニングを必要とせず、モバイルハードウェア上でリアルタイムに動作させる。

提案手法

大規模な画像検索モデルを知識蒸留によってモバイル向けネットワークに圧縮し、MobileNetVLADグローバル記述子を生成する。
検索された priors の共視性に基づくクラスタリングを行い、候補地点を定義する。
高次元の局所記述子（SIFTまたはFREAK）を、削減された候補集合内でのみ使用して2D-3D対応を計算する。
一貫した2D-3D対応からPnP-RANSACの姿勢推定を解く。
リコール/精度の改善とセンチメートル精度の姿勢推定を示すためにベースラインと比較評価する。

実験結果

リサーチクエスチョン

RQ1学習済みグローバル記述子は、2D-3D姿勢推定の探索空間を縮小する粗いローカリゼーションを実現できるか？
RQ2階層的で粗→細のローカライゼーションパイプラインは、モバイルハードウェア上での精度と実行時間の点で、既存の資源制約下の方法を上回るか？
RQ3グローバル記述子の蒸留、共視性クラスタリング、局所記述子の選択（FREAK vs SIFT）は、ローカリゼーション性能にどのように影響するか？

主な発見

手法	リコール@0.1m (%)	精度@0.1m (%)	中央値の誤差 (m)
Direct+FREAK [14]	20.1	71.1	0.048
MNV+FREAK	13.9	68.6	0.060
MNV+SIFT	38.5	80.5	0.029
Perfect+SIFT	39.3	83.3	0.028

MobileNetVLADはNetVLADに近いリトリーバルリコールを達成しつつ約38倍高速に動作し、リアルタイムなモバイル展開を実現する。
完全なローカリゼーションでは、MNV+SIFTはRecall@0.1mが38.5%、Precision@0.1mが80.5%、中央値誤差が0.029 mとなり、Direct+FREAKを上回り、理想的なSIFTの上限に近づく。
5–10枚のpriorフレームを使用すると強力な姿勢推定が得られつつ、実行時間を低く抑えられる。一方、priorの数を増やすとリターンが減少し遅延が増える。
全パイプラインはNVIDIA Jetson TX2上で2.2 FPSで動作し、局所マッチングがボトルネックで、精度を犠牲にすることでスピードアップの可能性がある。
MaplabのDirect+FREAKベースラインと比較して、提案手法はリコールを著しく改善している（報告結果で18.4%）。
リアルタイム制約があっても、ターゲット環境のトレーニングを必要とせず、GPS-deniedな都市規模環境でセンチメートル精度の姿勢を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。