QUICK REVIEW

[論文レビュー] A Large RGB-D Dataset for Semi-supervised Monocular Depth Estimation

Jae Hoon Cho, Dongbo Min|arXiv (Cornell University)|Apr 23, 2019

Advanced Vision and Imaging参考文献 65被引用数 25

ひとこと要約

本論文は、学生-教師フレームワークを用いた半教師あり単眼深度推定手法を提案する。深くスターリオマッチングネットワーク（教師）が、100万枚の画像を含む屋外ステレオデータセットから高品質な疑似深度マップを生成し、アンサンブル予測とステレオ信頼度マップを介して精錬することで、軽量な単眼深度推定ネットワーク（学生）を訓練する。この手法は最先端の性能を達成し、セマンティックセグメンテーションやレーン検出などの下流タスクに転送可能な意味的意味のある特徴を生成する。

ABSTRACT

Current self-supervised methods for monocular depth estimation are largely based on deeply nested convolutional networks that leverage stereo image pairs or monocular sequences during a training phase. However, they often exhibit inaccurate results around occluded regions and depth boundaries. In this paper, we present a simple yet effective approach for monocular depth estimation using stereo image pairs. The study aims to propose a student-teacher strategy in which a shallow student network is trained with the auxiliary information obtained from a deeper and more accurate teacher network. Specifically, we first train the stereo teacher network by fully utilizing the binocular perception of 3-D geometry and then use the depth predictions of the teacher network to train the student network for monocular depth inference. This enables us to exploit all available depth data from massive unlabeled stereo pairs. We propose a strategy that involves the use of a data ensemble to merge the multiple depth predictions of the teacher network to improve the training samples by collecting non-trivial knowledge beyond a single prediction. To refine the inaccurate depth estimation that is used when training the student network, we further propose stereo confidence-guided regression loss that handles the unreliable pseudo depth values in occlusion, texture-less region, and repetitive pattern. To complement the existing dataset comprising outdoor driving scenes, we built a novel large-scale dataset consisting of one million outdoor stereo images taken using hand-held stereo cameras. Finally, we demonstrate that the monocular depth estimation network provides feature representations that are suitable for high-level vision tasks. The experimental results for various outdoor scenarios demonstrate the effectiveness and flexibility of our approach, which outperforms state-of-the-art approaches.

研究の動機と目的

単眼深度推定における密度の高い高品質な深度教師信号の不足に応じて、大規模なステレオ画像ペアを活用する。
自己教師あり手法が通常失敗する領域（遮蔽領域、模様のない領域）における深度推定の精度を向上させる。
高価な真値深度マップへの依存を低減する半教師あり学習戦略を開発する。
堅牢な深度推定を支援するための大規模かつ多様な屋外ステレオデータセットを構築する。
単眼深度推定が、セマンティックセグメンテーションやレーン検出などの高レベルビジョン応用の強力な代理タスクとして機能できることを示す。

提案手法

小さな実深度マップのセットで訓練された深層ステレオマッチングネットワークを教師ネットワークとして用いる。
教師ネットワークが、DIML/CVLデータセット内の大量のラベルなしステレオ画像ペアから疑似真値深度マップを生成する。
教師ネットワークのマルチスケール予測のアンサンブルを統合し、より正確で頑健な疑似深度マップを生成する。
信頼度が低い領域（例：遮蔽、模様のない領域）を特定し、学習損失を誘導するためにステレオ信頼度マップを生成する。
ステレオ信頼度誘導損失を導入し、学生ネットワークの学習中に信頼度が低い領域での教師信号の重みを低下させる。
軽量な単眼深度推定器である学生ネットワークを、疑似深度マップと信頼度誘導損失を用いて訓練し、多様な屋外シーンに一般化できるようにする。

実験結果

リサーチクエスチョン

RQ1密度の高い真値深度マップに依存せずに、ステレオマッチングから単眼深度推定へ知識を効果的に転送できるか？
RQ2アンサンブル予測と信頼度マップは、困難な領域における疑似深度教師信号の品質をどのように向上させるか？
RQ3標準的な自己教師ありアプローチと比較して、本手法は遮蔽領域および模様のない領域におけるアーチファクトをどの程度低減するか？
RQ4本手法で訓練された単眼深度推定は、セマンティックセグメンテーションやレーン検出などの高レベルビジョンタスクの強力な代理タスクとして機能できるか？
RQ5ベンチマークデータセット上で、本手法の性能は最先端の手法と比較してどの程度か？

主な発見

本手法は、屋外ベンチマークにおいて最先端の自己教師あり単眼深度推定手法を上回り、優れた深度精度と明確な境界を達成する。
本手法を用いて事前学習したモデルは、Cityscapesセマンティックセグメンテーションベンチマークで平均IoU 65.47%を達成し、ImageNet事前学習と同等の性能を示す。
KITTIレーン検出ベンチマークでは、Fmax 95.65%およびAP 94.46%を達成し、スクラッチ学習モデルおよびImageNet事前学習モデルを上回る性能を示す。
アンサンブル予測とステレオ信頼度マップの使用は、特に遮蔽領域および模様のない領域における疑似深度品質を顕著に向上させる。
本フレームワークを用いて訓練された単眼深度ネットワークは意味的意味のある特徴を生成し、下流タスクへの強力な転送性を示す。
本手法は、わずかな実深度教師信号と大規模なステレオデータセットを用いることで最先端の性能を達成し、高価なLiDARデータへの依存を低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。