Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Monocular Depth Estimation with Left-Right Consistency

Clément Godard, Oisin Mac Aodha|arXiv (Cornell University)|Sep 13, 2016
Advanced Vision and Imaging参考文献 56被引用数 32
ひとこと要約

本論文は、真の深度データの代わりにステレオ映像を活用する教師なし単眼深度推定手法を提案する。新しい損失関数によりトレーニング中に左右の視差一貫性を強制することで、真の深度アノテーションを用いたいくつかの教師あり手法を上回る、KITTIデータセットにおける最先端の性能を達成している。

ABSTRACT

Learning based methods have shown very promising results for the task of depth estimation in single images. However, most existing approaches treat depth prediction as a supervised regression problem and as a result, require vast quantities of corresponding ground truth depth data for training. Just recording quality depth data in a range of environments is a challenging problem. In this paper, we innovate beyond existing approaches, replacing the use of explicit depth data during training with easier-to-obtain binocular stereo footage. We propose a novel training objective that enables our convolutional neural network to learn to perform single image depth estimation, despite the absence of ground truth depth data. Exploiting epipolar geometry constraints, we generate disparity images by training our network with an image reconstruction loss. We show that solving for image reconstruction alone results in poor quality depth images. To overcome this problem, we propose a novel training loss that enforces consistency between the disparities produced relative to both the left and right images, leading to improved performance and robustness compared to existing approaches. Our method produces state of the art results for monocular depth estimation on the KITTI driving dataset, even outperforming supervised methods that have been trained with ground truth depth.

研究の動機と目的

  • 単眼深度モデルのトレーニングに必要な真の深度データの不足と高コストを解決すること。
  • 明示的な深度監督を必要とせず、単にステレオ画像ペアのみを用いてエンドツーエンドの教師なし学習を可能にすること。
  • 左画像と右画像から予測された視差同士が互いに一貫していることを強制することで、深度推定の品質を向上させること。
  • 新しい都市部ステレオデータセットを含む多様なデータセットへの一般化を示すこと。
  • 真の深度監督なしでKITTIおよびMake3Dベンチマークで競争力のある性能を達成すること。

提案手法

  • 本手法は、ステレオ画像ペアを入力として、単一画像から視差マップを予測する完全畳み込みニューラルネットワークをトレーニングする。
  • 予測された視差を用いて右画像を微分可能ワープすることで左画像を再構築する画像再構築損失を採用する。
  • 左画像から予測された視差と右画像から予測された視差が互いに一貫していることを強制する、新しい左右一貫性損失を導入する。
  • 画像再構築損失と左右一貫性損失を組み合わせた損失関数を用いて、エンドツーエンドでネットワークをトレーニングする。
  • 後処理として中央値フィルタリングとエッジに配慮したスムージングを実施し、深度予測を精緻化する。
  • 新しいデータセットに対して、ステレオデータのみを用いてファインチューニングすることで、未学習の環境への一般化を可能にする。

実験結果

リサーチクエスチョン

  • RQ1真の深度監督なしで、単眼深度推定を効果的に学習できるか?
  • RQ2教師なし設定において、左右視差の一貫性を強制することで、深度推定の品質がどのように向上するか?
  • RQ3ステレオデータで学習したモデルは、ファインチューニングなしで新しい未学習のデータセットに一般化できるか?
  • RQ4本手法は、真の深度アノテーションを用いた教師ありベースラインを上回るか?
  • RQ5スペキュラー反射、透過、オクルージョンなどの課題に対して、本手法はどれほど頑健か?

主な発見

  • 本モデルは、KITTI 2015ドライブデータセットで最先端の性能を達成し、真の深度データを用いた複数の教師あり手法を上回っている。
  • KITTIデータセットでは、平均二乗誤差(Sq Rel)15.517、絶対相対誤差(Abs Rel)0.893、RMSE 11.542、log10誤差 0.223を達成している。
  • Make3Dデータセットでは、Sq Rel 11.990、Abs Rel 0.535、RMSE 11.513、log10誤差 0.156を達成しており、教師なしベースラインを上回り、質的評価でも一部の教師あり手法と同等またはそれを上回っている。
  • 本モデルはCamVidデータセットおよび新たに収集した都市部ステレオデータセットへも良好に一般化しており、再トレーニングなしで視覚的に妥当な深度マップを生成している。
  • Cityscapesで事前学習したモデルを新しい都市部データセットでファインチューニングすることで、同じカメラで撮影されたテストセットにおいて、視覚的に説得力のある深度予測が得られた。
  • 左右一貫性損失は、特にオクルージョン境界や柱・看板のような細い構造物において、再構築のみの学習に比べて顕著に性能を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。