QUICK REVIEW

[論文レビュー] Reference Pose Generation for Visual Localization via Learned Features and View Synthesis

Zichao Zhang, Torsten Sattler|arXiv (Cornell University)|May 11, 2020

Advanced Vision and Imaging被引用数 12

ひとこと要約

本論文は、実写画像と3Dモデルのレンダリングの間の学習された特徴マッチングを用いて初期推定値を改善することで、視覚的局所化のための正確な6-DoFリファレンスポーズを半自動で生成する手法を提案する。この手法は、Aachen Day-Nightデータセットにおける夜間のポーズ精度を顕著に向上させ、元のポーズに基づいて予測された性能よりも最大47%高い性能を達成できる最新の手法を可能にする。

ABSTRACT

Visual Localization is one of the key enabling technologies for autonomous driving and augmented reality. High quality datasets with accurate 6 Degree-of-Freedom (DoF) reference poses are the foundation for benchmarking and improving existing methods. Traditionally, reference poses have been obtained via Structure-from-Motion (SfM). However, SfM itself relies on local features which are prone to fail when images were taken under different conditions, e.g., day/night changes. At the same time, manually annotating feature correspondences is not scalable and potentially inaccurate. In this work, we propose a semi-automated approach to generate reference poses based on feature matching between renderings of a 3D model and real images via learned features. Given an initial pose estimate, our approach iteratively refines the pose based on feature matches against a rendering of the model from the current pose estimate. We significantly improve the nighttime reference poses of the popular Aachen Day-Night dataset, showing that state-of-the-art visual localization methods perform better (up to 47%) than predicted by the original reference poses. We extend the dataset with new nighttime test images, provide uncertainty estimates for our new reference poses, and introduce a new evaluation criterion. We will make our reference poses and our framework publicly available upon publication.

研究の動機と目的

日/夜の変化などの困難な条件下で、構造からモード（SfM）が信頼できるリファレンスポーズを生成する能力に限界があることを解決する。
ポーズ推定のための手作業による特徴対応付けのアノテーションにおけるスケーラビリティと精度の問題を克服する。
特に夜間の画像において、Aachen Day-Nightデータセットのリファレンスポーズの品質を向上させる。
生成されたリファレンスポーズの不確実性推定値を提供し、耐障害性の高い評価を支援する。
改善されたポーズ監視下での視覚的局所化性能をよりよく評価できる新しい評価基準を導入する。

提案手法

シーンの3Dモデルを用いて、初期ポーズ推定値から合成レンダリングを生成する。
深層学習された特徴を活用して、実写画像とレンダリングの間の対応点をマッチングする。
実写画像とモデルレンダリングの間の特徴対応を用いて、ポーズ推定値を繰り返し改善する。
特徴マッチング損失に基づくエンドツーエンド最適化を可能にするため、微分可能なレンダリングパイプラインを適用する。
特徴マッチングプロセスにおけるモンテカルロドロップアウトや類似手法を用いて、改善されたポーズの不確実性を推定する。
Aachen Day-Nightデータセットに新しい夜間テスト画像を追加し、改善されたリファレンスポーズとコードを公開する。

実験結果

リサーチクエスチョン

RQ1実写画像と3Dモデルのレンダリングの間の学習された特徴マッチングは、低テクスチャまたは低コントラストな条件下で6-DoFリファレンスポーズの精度を向上させることができるか？
RQ2提案手法は、元のSfMベースのポーズと比較して、最新の視覚的局所化手法の性能をどの程度向上させるか？
RQ3本手法が生成する不確実性推定値はどれほど信頼性が高く、局所化誤差と相関しているか？
RQ4本手法のフレームワークは、ポーズ取得に類似の課題を抱える他のデータセットへも一般化可能か？
RQ5新しい評価基準は、改善されたポーズ監視下でのローカライゼーションシステムの真の性能をよりよく反映しているか？

主な発見

提案手法は、Aachen Day-Nightデータセットにおける夜間リファレンスポーズの品質を顕著に向上させ、最新の視覚的局所化手法が元のSfMベースのポーズに基づいて予測された性能よりも最大47%高い性能を達成できるようにした。
改善されたリファレンスポーズは、特に低照度やテクスチャが乏しい条件下で、より信頼性が高く一貫性のある局所化結果をもたらす。
フレームワークが生成する不確実性推定値は局所化誤差と相関しており、ポーズの信頼性を信頼できる指標として提供する。
本手法は、Aachen Day-Nightデータセットに新しい高品質な夜間テスト画像とリファレンスポーズを追加し、拡張に成功した。
新しい評価基準は、元の不正確なリファレンスポーズによって隠れていた性能向上を明らかにし、高品質な監視の重要性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。