QUICK REVIEW

[論文レビュー] Recurrent Neural Network for (Un-)supervised Learning of Monocular VideoVisual Odometry and Depth

Rui Wang, Stephen M. Pizer|arXiv (Cornell University)|Apr 15, 2019

Advanced Vision and Imaging参考文献 43被引用数 41

ひとこと要約

この論文は、モノクロ動画から深度と視覚オドメトリを共同推定するRNNベースのフレームワークを提案し、multi-view reprojectionとforward-backward flow-consistency lossesを用いた監視付きまたは自监督トレーニングを可能にし、KITTIにおいて最新の結果を達成します。

ABSTRACT

Deep learning-based, single-view depth estimation methods have recently shown highly promising results. However, such methods ignore one of the most important features for determining depth in the human vision system, which is motion. We propose a learning-based, multi-view dense depth map and odometry estimation method that uses Recurrent Neural Networks (RNN) and trains utilizing multi-view image reprojection and forward-backward flow-consistency losses. Our model can be trained in a supervised or even unsupervised mode. It is designed for depth and visual odometry estimation from video where the input frames are temporally correlated. However, it also generalizes to single-view depth estimation. Our method produces superior results to the state-of-the-art approaches for single-view and multi-view learning-based depth estimation on the KITTI driving dataset.

研究の動機と目的

モノクロ動画の時系列情報を活用して深度と姿勢推定を向上させる。
ConvLSTMユニットを用いて深度と visual odometry 推定を同時に実現する。
multi-view reprojectionとforward-backward flow制約を用いた頑健な自己监督型訓練を開発する。
任意長のシーケンスにわたって一貫したシーンスケールを維持する。
KITTIで最先端手法と比べて優れた性能を示す。

提案手法

ConvLSTMを統合した深度ネットワーク（encoder-decoder）で深度 Z_t と隠れ状態 h_t^d を出力する。
VGG16バックボーンを基盤とするConvLSTMユニットを備えた視覚オドメトリネットワークが相対的な6DoF姿勢 P_t→t-1 を出力する。
訓練は微分可能な幾何モジュールを用いて Z_t と P_t→t-1 からのマルチビュー画像ワーピングを実行する。
マルチビュー reprojection loss L_fw/L_bw は微分可能なワーピングを介して現在のビューと前 viewpoints を揃える。
forward-backward flow-consistency loss は前方と後方の光学フローの一貫性を課す。
ground truth が利用可能な場合には絶対スケールを得るための任意の深度絶対誤差 loss L_depth（および代替の滑らかさバリエーション）をオプションで用意する。

実験結果

リサーチクエスチョン

RQ1ConvLSTMベースのアーキテクチャは、複数フレームにわたる時系列情報を活用してモノキュラ深度推定とego-motionを改善できるか。
RQ2マルチビュー reprojectionとforward-backward flow一貫性を組み込むことは、ペアワイズ reprojection のみと比較して、监督なしの深度と姿勢推定を改善するか。
RQ3提案手法は一貫したシーンスケールを達成でき、任意長のシーケンスで動作するか。
RQ4KITTI における supervised と unsupervised 訓練の性能差はどうなるか。
RQ5リカレントユニットの配置と時系列ウィンドウサイズが深度/姿勢の精度に与える影響はどの程度か。

主な発見

この手法は、KITTI における supervised および unsupervised 深度推定の双方で最先端の結果を達成する。
マルチビュー reprojection と flow 一貫性を用いた unsupervised 訓練は、いくつかの supervised ベースラインや他の unsupervised 手法を上回る。
深度ネットワークへの Conveyor 構成として encoder のみの ConvLSTM 配置が、full または decoder 配置より深度/姿勢の性能を向上させる。
マルチビュー reprojection 損失は、連続 reprojection よりも強い監督を提供し、特に unsupervised 設定で効果的である。
深度推定は時間的ウィンドウを大きくするにつれて約 10 フレーム程度で改善が頭打ちになる一方、モデルは任意長のシーケンスをサポートする。
このフレームワークは複数スケールで深度を生成し、長いシーケンス全体で一貫したシーンスケールを維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。