[論文レビュー] Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video
この論文は幾何学的一致性と自己発見マスクを用いて、ラベルなしモノラル動画から深度と ego-motion ネットワークを訓練し、KITTIで深度の最先端を達成し、長いシーケンスにわたってグローバルにスケール整合のある視覚オドメトリを達成します。
Recent work has shown that CNN-based depth and ego-motion estimators can be learned using unlabelled monocular videos. However, the performance is limited by unidentified moving objects that violate the underlying static scene assumption in geometric image reconstruction. More significantly, due to lack of proper constraints, networks output scale-inconsistent results over different samples, i.e., the ego-motion network cannot provide full camera trajectories over a long video sequence because of the per-frame scale ambiguity. This paper tackles these challenges by proposing a geometry consistency loss for scale-consistent predictions and an induced self-discovered mask for handling moving objects and occlusions. Since we do not leverage multi-task learning like recent works, our framework is much simpler and more efficient. Comprehensive evaluation results demonstrate that our depth estimator achieves the state-of-the-art performance on the KITTI dataset. Moreover, we show that our ego-motion network is able to predict a globally scale-consistent camera trajectory for long video sequences, and the resulting visual odometry accuracy is competitive with the recent model that is trained using stereo videos. To the best of our knowledge, this is the first work to show that deep networks trained using unlabelled monocular videos can predict globally scale-consistent camera trajectories over a long video sequence.
研究の動機と目的
- モノラル動画から深度と ego-motion の学習を、地上 truth depth や姿勢の supervison なしで促進する。
- 幾何再構成を妨げるスケールの曖昧性と移動物体の課題に対処する。
- 連続フレーム間でスケール整合性を課す幾何学的一致性損失を導入する。
- 追加のネットワークなしに、自己生成マスクを用いて動的/遮蔽領域を抑重する。
- KITTI データセットでの深度の最先端と、ステレオ学習モデルと比較して競争力のある視覚オドメトリを実証する。
提案手法
- 単一フレームから深度マップをCNN 深度ネットワークで推定する。
- 連続フレーム間の相対6Dカメラ姿勢を PoseNet 風のネットワークで予測する。
- 参照フレームを合成するために画像をワープさせ、監 supervision のために SSIM を含むフォトメトリック損失を算出する。
- 連続フレーム間での深度のスケール整合性を課す幾何学的一致性損失を導入し、D_b^a と補間された D'_b を比較する。
- 追加のネットワークを用いずに深度の不整合 D_diff から自己発見マスクを自動的に導出し、動的/遮蔽領域を抑重する。
- 安定性と効率性を向上させるために、深度の単一スケール監 supervision で訓練する。
実験結果
リサーチクエスチョン
- RQ1モノラル動画から学習した深度と ego-motion のグローバルなスケール整合性を幾何学的一致性制約で強制できるのだろうか?
- RQ2追加のネットワークや supervision なしで、動く物体や遮蔽をどのように扱えるか?
- RQ3本手法はモノラル動画を用いて KITTI で深度推定の最先端を達成し、視覚オドメトリはステレオ学習モデルと比較して競争力を持つのか?
主な発見
| 手法 | データセット | AbsRel | SqRel | RMS | RMSlog | <1.25 | <1.25^2 | <1.25^3 |
|---|---|---|---|---|---|---|---|---|
| Ours | K ( M ) | 0.137 | 1.089 | 5.439 | 0.217 | 0.830 | 0.942 | 0.975 |
| Ours | CS+K ( M ) | 0.128 | 1.047 | 5.234 | 0.208 | 0.846 | 0.947 | 0.976 |
- 深度推定器はモノラル動画シーケンスで訓練された場合に KITTI データセットで最先端の性能を達成する。
- ego-motion ネットワークは長いビデオシーケンスでグローバルにスケール整合性のあるカメラ軌道を生成する。
- 軌道推定の精度は、ステレオ動画で学習したモデルと競争力がある。
- 自己発見マスクは動的領域や遮蔽を効果的に識別し、訓練損失への影響を低減する。
- 単一スケールの深度監 supervision はこのフレームワークでマルチスケール監 supervision を上回る場合がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。