[論文レビュー] Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction
本論文は、ステレオ映像シーケンスから単一視深度とモノ視 VO を共同学習する教師なしフレームワークを提案し、空間的・時間的光度損失と深層特徴再構成損失を用いて、メートルスケールの深度と競争力のある VO を実現する。
Despite learning based methods showing promising results in single view depth estimation and visual odometry, most existing approaches treat the tasks in a supervised manner. Recent approaches to single view depth estimation explore the possibility of learning without full supervision via minimizing photometric error. In this paper, we explore the use of stereo sequences for learning depth and visual odometry. The use of stereo sequences enables the use of both spatial (between left-right pairs) and temporal (forward backward) photometric warp error, and constrains the scene depth and camera motion to be in a common, real-world scale. At test time our framework is able to estimate single view depth and two-view odometry from a monocular sequence. We also show how we can improve on a standard photometric warp loss by considering a warp of deep features. We show through extensive experiments that: (i) jointly training for single view depth and visual odometry improves depth prediction because of the additional constraint imposed on depths and achieves competitive results for visual odometry; (ii) deep feature-based warping loss improves upon simple photometric warp loss for both single view depth estimation and visual odometry. Our method outperforms existing learning based methods on the KITTI driving dataset in both tasks. The source code is available at https://github.com/Huangying-Zhan/Depth-VO-Feat
研究の動機と目的
- モノクロ depth と姿勢推定におけるスケールの曖昧さを、ステレオ訓練データを活用して動機付け・解決する。
- 深度推定器と visual odometry ネットワークを共同学習し、タスク間の一貫性を確保する。
- 光度損失だけではなく深層特徴再構成損失を導入して監視 supervision を改善する。
- ステレオと時間的制約が KITTI での深度精度と VO 性能を向上させることを示す。
提案手法
- ステレオ映像シーケンスから深度 (CNN_D) と visual odometry (CNN_VO) ネットワークを共同で学習する。
- エピポーラ幾何と双線形ワープを用いてターゲットビューを合成する differentiable geometry を利用し、画像再構成損失を可能にする。
- 左右・時間的一貫性を組み合わせた画像再構成損失を監視として課す。
- 深層特徴再構成損失を導入して、生データのピクセル強度を超えた頑健で文脈依存の監視を提供する。
- エッジ対応の深度平滑化損失を適用して深度予測を正則化する。
- Feature Reconstruction term 内で ImageNet、NYUv2-descriptor、または自己埋め込み深度特徴の特徴を統合可能とする。
実験結果
リサーチクエスチョン
- RQ1ステレオ訓練は monocular depth および VO 推定におけるフレームごとのスケールの曖昧さを取り除き、テスト時にメートルスケールを提供できるか?
- RQ2時間情報と深層特徴ベースの再構成を組み込むと、色ベースの光度損失を超えた深度と VO の精度が改善されるか?
- RQ3深度と姿勢ネットワークを共同訓練することが KITTI における深度品質とフレーム間オドメトリ性能にどのような影響を与えるか?
主な発見
| Method | Seq09 t_err(%) | Seq09 r_err(°/100m) | Seq10 t_err(%) | Seq10 r_err(°/100m) |
|---|---|---|---|---|
| ORB-SLAM (LC) | 16.23 | 1.36 | / | / |
| ORB-SLAM | 15.30 | 0.26 | 3.68 | 0.48 |
| Zhou et al. [44] | 17.84 | 6.78 | 37.91 | 17.78 |
| Ours (Temporal) | 11.93 | 3.91 | 12.45 | 3.46 |
| Ours (Full-NYUv2) | 11.92 | 3.60 | 12.62 | 3.43 |
- ステレオベースの共同学習フレームワークは、外部スケール監視なしでメートルスケールの深度と競争力のある単一視 VO 結果を生み出す。
- 深層特徴再構成損失は、純粋な光度的(カラー)ワープ損失よりも深度と VO の精度を向上させる。
- ステレオと時間的制約を組み込んだ深度と VO の共同訓練は、従来の単一視 VO 法より優れ、KITTI において幾何学的ベースラインと競合する。
- 学習済み特徴(ImageNet 由来や自己教師付き深度特徴)をワープ損失に組み込むと性能がさらに向上する。
- このアプローチは、KITTI における単一視深度推定とフレーム間 VO の丼 unsupervised 法の中で最先端の結果を達成している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。