QUICK REVIEW

[論文レビュー] UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning

Ruihao Li, Sen Wang|arXiv (Cornell University)|Sep 20, 2017

Robotics and Sensor-Based Localization参考文献 19被引用数 48

ひとこと要約

UnDeepVO は、空間的および時間的幾何制約を用いてラベルなしステレオ画像ペアで訓練する自己教師付きディープラーニングを用いて、絶対的スケール回復を伴う6自由度カメラポーズと高密度深度マップを推定する単眼ビジュアルオドメトリーシステムである。KITTI データセット上で、真値ラベルやスケール補正処理を必要とせず、最先端の単眼 VO 性能を達成している。

ABSTRACT

We propose a novel monocular visual odometry (VO) system called UnDeepVO in this paper. UnDeepVO is able to estimate the 6-DoF pose of a monocular camera and the depth of its view by using deep neural networks. There are two salient features of the proposed UnDeepVO: one is the unsupervised deep learning scheme, and the other is the absolute scale recovery. Specifically, we train UnDeepVO by using stereo image pairs to recover the scale but test it by using consecutive monocular images. Thus, UnDeepVO is a monocular system. The loss function defined for training the networks is based on spatial and temporal dense information. A system overview is shown in Fig. 1. The experiments on KITTI dataset show our UnDeepVO achieves good performance in terms of pose accuracy.

研究の動機と目的

真値ポーズや深度ラベルに依存せずに絶対的スケールを回復する単眼ビジュアルオドメトリーシステムの開発。
ステレオ画像ペアを用いた自己教師付き学習により、深層ニューラルネットワークをポーズと深度推定の両方に対して訓練する。
推論時に単眼画像シーケンスから正確な6自由度ポーズと高密度深度マップを予測可能にする。
大規模なラベルなしデータセットを用いた自己教師付き事前学習により、運動ブラーや照明変化といった困難な状況への耐性を向上させる。
自己教師付き学習段階でスケール回復を組み込むことで、スケール補正処理の必要性を排除する。

提案手法

ポーズ推定には、回転と並進の損失を重み付け正規化可能にするために、分離された全結合層を備えたVGGベースのCNNアーキテクチャを採用。
深度推定には、ステレオ学習データから絶対的スケールを有する高密度深度マップを生成する、U-Netに類似したエンコーダデコーダネットワークを用いる。
自己教師付き学習を可能にするために、空間的フォトメトリック整合性（左-右画像のワープ）と時間的フォトメトリック整合性（フレーム間の画像再構築）を組み合わせた損失関数を採用。
トレーニングではステレオ画像ペアを用いて絶対的スケールを回復し、モデルは単眼シーケンスでテストされるため、キャリブレーション済みスケールを伴う単眼推論が可能。
一般化性能を向上させるために、フォトメトリック再構築損失と深度滑らかさ正則化を組み合わせて、エンドツーエンドでネットワークを訓練。
ステレオ幾何に基づき、スケールアライメントが学習段階で暗黙的に学習されるため、明示的な教師なしでスケールに依存する出力を予測可能。

実験結果

リサーチクエスチョン

RQ1ステレオ画像ペアを用いた自己教師付き学習により、単眼ビジュアルオドメトリーシステムが絶対的スケール回復を達成できるか？
RQ2ラベルなしステレオデータのみを用いて、深層ニューラルネットワークが6自由度ポーズと高密度深度推定をどの程度正確に実行できるか？
RQ3空間的および時間的幾何制約の統合が、真値ラベルが存在しない状況下で単眼VO性能にどの程度向上効果をもたらすか？
RQ4提案手法の自己教師付きアプローチは、KITTI データセットにおけるポーズと深度精度の観点で、教師ありおよび他の自己教師付きベースラインと比較してどのように差をつけるか？
RQ5スケールキャリブレーションやループクロージャーを必要とせず、実世界の単眼シーケンスに一般化可能か？

主な発見

UnDeepVO は KITTI データセットにおける単眼VO手法の中で最高の性能を達成し、100mあたりの平均並進RMSEドリフトが0.76%、回転RMSEドリフトが0.32°/100mであった。
後処理を一切行わず、スケール付きの6自由度ポーズと高密度深度マップを生成し、スケール回復が欠落する自己教師付き手法を上回った。
KITTI 深度推定ベンチマークにおいて、絶対相対誤差（Abs Rel）が0.183を達成し、SfMLearner（0.208）を上回り、Eigen らの教師あり手法（0.214）と同等の性能を示した。
KITTI データセットのシーケンス00–10において、すべての評価手法の中で推定トラジェクトリが真値に最も近い質的結果を示した。
真値なしのシーケンス11–21においても、UnDeepVO のトラジェクトリ性能はステレオベースのVISO2-Sシステムと同等であり、未学習データへの強力な一般化能力を示した。
トレーニングにKITTI データセットの一部しか使用しなかったにもかかわらず、競争力のある深度推定結果を達成しており、より大規模な自己教師付き事前学習によりさらなる向上が期待できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。