QUICK REVIEW

[論文レビュー] Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue

Ravi Garg, Vijay Kumar Bg|arXiv (Cornell University)|Mar 16, 2016

Advanced Vision and Imaging参考文献 27被引用数 319

ひとこと要約

本論文は、左視 stereo画像から左画像を右画像から予測された視差を用いて再構成することにより、単一視点深度マップを予測する完全無監督のCNNを提示する。ground-truth depthsなしで端-to-end学習が可能。

ABSTRACT

A significant weakness of most current deep Convolutional Neural Networks is the need to train them using vast amounts of manu- ally labelled data. In this work we propose a unsupervised framework to learn a deep convolutional neural network for single view depth predic- tion, without requiring a pre-training stage or annotated ground truth depths. We achieve this by training the network in a manner analogous to an autoencoder. At training time we consider a pair of images, source and target, with small, known camera motion between the two such as a stereo pair. We train the convolutional encoder for the task of predicting the depth map for the source image. To do so, we explicitly generate an inverse warp of the target image using the predicted depth and known inter-view displacement, to reconstruct the source image; the photomet- ric error in the reconstruction is the reconstruction loss for the encoder. The acquisition of this training data is considerably simpler than for equivalent systems, requiring no manual annotation, nor calibration of depth sensor to camera. We show that our network trained on less than half of the KITTI dataset (without any further augmentation) gives com- parable performance to that of the state of art supervised methods for single view depth estimation.

研究の動機と目的

高価な深度アノテーションを回避するため、単一視点深度推定のための無監督学習を動機づける。
CNN が深度マップを予測し、それを用いて右画像を左へ再投影して再構成する、ステレオベースのオートエンコーダを提案する。
KITTI上で、 ground-truth depthデータなしで一からのエンドツーエンド学習を実証する。
スキップ接続を伴う粗-細トレーニングが深度予測品質を改善することを示す。
最先端の教師あり手法と比較して評価し、データ拡張とファインチューニングの利点を分析する。

提案手法

既知のカメラ運動を持つステレオペアを用いて、ソース（左）画像の深度マップを予測するCNNを訓練する。
予測深度と既知の視差を用いて右画像の逆向きワープを生成し、左画像を再構成する。フォトメトリック再構成損失を最適化する。
アパーチャ問題に対処するため、視差に対して単純な滑らかさの事前情報を適用する。
解像度を超えて深度予測を洗練させるため、Skip接続を備えた粗-細アーキテクチャを採用する。
テイラー展開を用いてワープを線形化し、バックプロパゲーションを有効にして複数の訓練段階で反復的に改良する。
多段階のアップサンプリング（L7 to L12）で訓練し、後にデータ拡張（色、スケール、反転）でファインチューニングする。

実験結果

リサーチクエスチョン

RQ1ステレオ幾何を用いて、単一視点から深度を予測するために、教師なしでゼロから端から端までCNNを訓練できるか？
RQ2自己エンコーダ風のワープからのフォトメトリック再構成損失は、ground-truth depths なしで競争力のある深度予測を提供するか？
RQ3無監督設定における粗-細トレーニングとSkip connectionsが深度精度に与える影響は？
RQ4KITTIでの教師なし手法と、監視付き単一視点深度法およびステレオベースのベースラインを比較するとどうなるか？
RQ5データ拡張とファインチューニングは、無監督の単一視点深度推定性能を改善できるか？

主な発見

ステレオペアで訓練された無監督CNNは、KITTIで最先端の教師あり手法と比較して競争力の深度予測を達成する。
Skip接続を伴う粗-細トレーニングは、特に高解像度で徐々に良い深度マップを生み出す。
データ拡張と事後ファインチューニングは、エッジの局在化と全体的な深度精度をさらに向上させる。
完全無監督で初期化不要な本手法は、ground-truth depths なしで監督ありの性能に近づくことができる。
ステレオ-to-CNNベースラインと比較して、オートエンコーダー手法は代理のground-truth disparitiesからの学習バイアスを回避し、物体のエッジ近傍の深度誤差を低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。