Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Learning of Depth and Ego-Motion from Video

Tinghui Zhou, Matthew Brown|arXiv (Cornell University)|Apr 25, 2017
Advanced Vision and Imaging参考文献 47被引用数 222
ひとこと要約

ラベルなしの動画から単眼深度とカメラ自己運動を学習するエンドツーエンドの教師なしフレームワーク。微分可能なビュー合成損失を用いて訓練し、非理想性に対処するための説明可能マスクと共に、画素ごとの深度と6-DoF姿勢を共同推定します。

ABSTRACT

We present an unsupervised learning framework for the task of monocular depth and camera motion estimation from unstructured video sequences. We achieve this by simultaneously training depth and camera pose estimation networks using the task of view synthesis as the supervisory signal. The networks are thus coupled via the view synthesis objective during training, but can be applied independently at test time. Empirical evaluation on the KITTI dataset demonstrates the effectiveness of our approach: 1) monocular depth performing comparably with supervised methods that use either ground-truth pose or depth for training, and 2) pose estimation performing favorably with established SLAM systems under comparable input settings.

研究の動機と目的

  • 未ラベルのビデオ列から地形の幾何とカメラの動きを学習する動機付け。
  • 画素を深度と6-DoF姿勢へマッピングするエンドツーエンドのCNNフレームワークを開発する。
  • ビュー合成を通じて深度と姿勢を監督する微分可能な画像ベースのレンダ링を活用する。
  • オクルージョン、非剛体運動、その他の未モデル化要因に対処する説明可能マスクを導入する。
  • KITTIで深度推定と自己運動の丮合において、教師ありのベースラインと比較して有効性を示す。

提案手法

  • ターゲット視点から画素ごとの深度マップを予測する単一視点深度ネットワークを使用する。
  • ターゲットと近傍のソース視点を取り扱い、各ソース視点への相対カメラ姿勢を予測する姿勢ネットワークを使用する。
  • 予測深度と姿勢を用いてソース視点をターゲットフレームへワープすることにより、微分可能なビュー合成損失を計算する。
  • 深度と姿勢の誤差を逆伝搬させることを可能にする、バイリニアサンプリングを備えた微分可能な画像ベースレンダラーを組み込む。
  • 動的要素、オクルージョン、非ラメ多様性効果によりビュー合成が信頼できない領域を低重み付けする説明可能マスクを導入し、平滑化項で単純なマスキングを防ぐ。
  • 勾配局所性に対処し妥当な深度マップを促進するため、深度平滑性事前条件を備えたマルチスケール訓練を採用する。

実験結果

リサーチクエスチョン

  • RQ1ラベル付きの深度やポーズがなくても、単眼ビデオは深度と自己運動を共同学習するのに十分な監督信号を提供できるか。
  • RQ2ビュー合成をどのように監督信号として用い、深度と姿勢ネットワークをエンドツーエンドで訓練できるか。
  • RQ3不均一性、動的要素、非理想性に対処するために、監視信号未使用の学習中に必要なメカニズム(例:説明可能マスク)は何か。
  • RQ4従来のKITTIのような標準ベンチマークで、 unsupervisedアプローチは深度/姿勢の監視付き手法とどのように比較されるか。

主な発見

  • このフレームワークは、KITTIで監視付き手法と同等程度の評価を得られる単一視点深度を学習する。
  • モノキュラシー時系列からの姿勢推定は、同等の入力設定下で確立されたSLAMシステムと良好に比較される。
  • 完全に教師なしで動作し、訓練にはモノキュラビデオ列のみを必要とする。
  • 説明可能マスクは動的シーン、オクルージョン、非ラメンターン表面からの問題を緩和し、ビュー合成の監督の頑健性を高める(ただしKITTIでのアブレーションは限定的な改善を示す)。
  • 推定時のデプロイメントは、 jointly trained でも深度と姿勢ネットワークを独立して使用可能。
  • KITTIでの定性的・定量的比較が含まれ、深度は教師ありベースラインに近づき、自己運動は制約下でSLAM的な性能に近づく。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。