QUICK REVIEW

[論文レビュー] Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video

Jia-Wang Bian, Zhichao Li|arXiv (Cornell University)|Aug 28, 2019

Advanced Vision and Imaging被引用数 295

ひとこと要約

本論文は幾何一貫性損失と自己発見マスクを提案し、モノクロ動画から深度と自己運動ネットワークを訓練し、KITTIでモノクロ深度の最先端結果を達成し、ステレオ監視なしで全体的なスケール一貫性を持つ視覚オドメトリを実現する。

ABSTRACT

Recent work has shown that CNN-based depth and ego-motion estimators can be learned using unlabelled monocular videos. However, the performance is limited by unidentified moving objects that violate the underlying static scene assumption in geometric image reconstruction. More significantly, due to lack of proper constraints, networks output scale-inconsistent results over different samples, i.e., the ego-motion network cannot provide full camera trajectories over a long video sequence because of the per-frame scale ambiguity. This paper tackles these challenges by proposing a geometry consistency loss for scale-consistent predictions and an induced self-discovered mask for handling moving objects and occlusions. Since we do not leverage multi-task learning like recent works, our framework is much simpler and more efficient. Comprehensive evaluation results demonstrate that our depth estimator achieves the state-of-the-art performance on the KITTI dataset. Moreover, we show that our ego-motion network is able to predict a globally scale-consistent camera trajectory for long video sequences, and the resulting visual odometry accuracy is competitive with the recent model that is trained using stereo videos. To the best of our knowledge, this is the first work to show that deep networks trained using unlabelled monocular videos can predict globally scale-consistent camera trajectories over a long video sequence.

研究の動機と目的

モノクロビデオからの深度と自己運動の無監督学習を、地上真値の深度やポーズなしで動機づける。
静的シーン仮定の下で、サンプル間および動く物体に対するスケール一貫性の欠如に対処する。
幾何ベースの一貫性制約と自己発見マスクを導入し、頑健性と効率を向上させる。

提案手法

連続フレームからCNNを用いて深度マップと相対カメラ姿勢を予測する。
予測深度と姿勢を用いて、微分可能補間で一方のフレームをもう一方にワープし再構成する。
連続フレーム間の深度の不一貫性を最小化する幾何一貫性損失L_GCを導入し、スケール一貫性を強制する。
深度不一致D_diffから自己発見マスクMを導出し、フォトメトリック損失で動的領域やオクルージョンのピクセルの重みを下げる。
フォトメトリック損失、SSIM、エッジ対応の滑らかさ、そして幾何一貫性損失の加重和で学習する。
KITTIで単一スケールの監視で評価し、単一タスクの監視なしで最先端の深度と競争力のある長序列VOを実証する。

実験結果

リサーチクエスチョン

RQ1モノクロビデオで訓練された深度と自己運動ネットワークは、長い連続でグローバルなスケール一貫性のある予測を達成できるか。
RQ2追加の監視なしまたはマルチタスクを伴わずに、幾何制約をどのように用いてスケール一貫性を強制できるか。
RQ3再構成不一致からの自己発見マスクは、追加のネットワークなしで動的物体とオクルージョンを効果的に処理できるか。
RQ4深度の無監督モノクロ学習における単一スケールの監視とマルチスケール監視を比較するとどうなるか。
RQ5KITTIにおけるモノクロ訓練のVOとステレオ訓練ベースラインの比較性能はどうか。

主な発見

深度推定器は、モノクロビデオで訓練された手法の中でKITTIにおいて最先端の性能を達成。
自己運動予測器は長い連続にわたりグローバルなスケール一貫性のあるカメラ軌道を生み出し、ステレオ訓練モデルと競合。
幾何一貫性損失はスケール不整合を低減し、連続フレーム間の一貫性をシーケンス全体に伝播する。
深度不一致から得られる自己発見マスクは、追加のネットワークなしで動的/オクルージョン領域の重みを効果的に低下させる。
彼らの設定では単一スケールの監視がマルチスケール監視を上回り、頑健性と効率を向上させる。
本手法は高い深度精度と競争力のある視覚オドメトリを示し、顕著な学習効率改善を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。