QUICK REVIEW

[論文レビュー] VidLoc: A Deep Spatio-Temporal Model for 6-DoF Video-Clip Relocalization

Ronald Clark, Sen Wang|arXiv (Cornell University)|Feb 21, 2017

Robotics and Sensor-Based Localization参考文献 21被引用数 31

ひとこと要約

この論文では、時間的滑らかさを活用して、短い動画クリップ（20フレーム）を用いて6-DoFモノクロナリックカメラ再局所化の精度を向上させる、ディープな空間時間的再帰的モデルであるVidLocを提案する。連続するフレームを同時にモデル化することで、単一画像ベースラインと比較して局所化誤差を顕著に低減し、挑戦的な実世界データセットにおいて50％以上の予測で20メートル未満の誤差を達成する。

ABSTRACT

Machine learning techniques, namely convolutional neural networks (CNN) and regression forests, have recently shown great promise in performing 6-DoF localization of monocular images. However, in most cases image-sequences, rather only single images, are readily available. To this extent, none of the proposed learning-based approaches exploit the valuable constraint of temporal smoothness, often leading to situations where the per-frame error is larger than the camera motion. In this paper we propose a recurrent model for performing 6-DoF localization of video-clips. We find that, even by considering only short sequences (20 frames), the pose estimates are smoothed and the localization error can be drastically reduced. Finally, we consider means of obtaining probabilistic pose estimates from our model. We evaluate our method on openly-available real-world autonomous driving and indoor localization datasets.

研究の動機と目的

モノクロナリック6-DoF再局所化における知覚的アリスティング（perceptual aliasing）とノイズの多い単一画像ポーズ推定の課題に対処すること。
動画シーケンスにおける時間的整合性を活用して、単一フレーム手法を上回る局所化精度を向上させること。
マップマッチング、モデルベース再局所化、時間的フィルタリングを統合した1つのエンドツーエンドフレームワークとしての統合的モデルの開発。
都市部の道路や屋内シーンなど、動的変化と曖昧な外観を示す実世界環境でも、頑健なグローバル再局所化を可能にすること。

提案手法

短い動画クリップ（例：20フレーム）を処理し、6-DoFカメラポーズを回帰する再帰的ニューラルネットワーク（RNN）アーキテクチャを提案する。
長距離の時間的依存関係を捉え、予測されたポーズシーケンスの滑らかさを強制するために、双方向RNNを用いる。
ポーズグラフSLAMを介してGPS/INSとステレオビジョウオドメトリによる真値ポーズを統合し、エンドツーエンドでモデルを学習する。
フレームごとのノイズを低減し、外観変化によって引き起こされる誤った対応を抑制するために、時間的正則化を組み込む。
RNN出力における不確実性をモデル化することで、信頼度を反映した確率的ポーズ推定を可能にする。
シーケンス長に応じた学習戦略を採用し、10から100フレームまでのさまざまなクリップ長さで性能を評価する。

実験結果

リサーチクエスチョン

RQ1短い動画クリップにおける時間的滑らかさは、単一画像ベースラインと比較して6-DoF局所化誤差を顕著に低減できるか？
RQ2入力動画クリップの長さは、再局所化システムの精度と耐障害性にどのように影響するか？
RQ3ディープな再帰的モデルは、1つのエンドツーエンドアーキテクチャ内でマップマッチング、モデルベース再局所化、時間的フィルタリングを効果的に統合できるか？
RQ4本手法は、動的かつ曖昧な外観を示す実世界環境における知覚的アリスティングをどの程度軽減できるか？
RQ5モデルは、困難な再局所化シナリオにおいて不確実性を反映した信頼性のある確率的ポーズ推定を生成できるか？

主な発見

提案されたVidLocモデルは、Posenetなどの単一画像ベースラインと比較して、顕著に局所化誤差を低減し、100フレームのシーケンスを用いることで、50％以上の予測が真値から20メートル未満の誤差に収束する。
100フレームのシーケンスにおいて、モデルは滑らかで正確な6-DoFポーズ推定を達成し、位置と姿勢の両面で真値トラジェクトリをよく追跡する。
モデルは知覚的アリスティングを効果的に軽減する：車両や照明の変化があるような高レベルの視覚的曖昧性を持つシーンでも、時間的文脈のおかげで正しく再局所化が可能になる。
誤差分布の分析から、Posenetは15％以上のケースで200メートルを超える大きな誤差を示す一方、VidLocは時間的スムージングによってそのような外れ値を低減している。
シーケンス長を延ばすことで性能が向上し、50および100フレームのシーケンスはGoogleマップ上でも真値と一貫した一致を示しており、外観変化に対する耐障害性が裏付けられる。
本手法により、運動の一貫性を持つトラジェクトリのエンドツーエンド学習が可能となり、モデルが時間的モデリングを通じて運動の形状を暗黙的に学習していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。