QUICK REVIEW

[論文レビュー] Semi-Supervised Deep Learning for Monocular Depth Map Prediction

Yevhen Kuznietsov, Jörg Stückler|arXiv (Cornell University)|Feb 9, 2017

Advanced Vision and Imaging参考文献 22被引用数 90

ひとこと要約

本論文は、疎なLiDAR深度監視と教師なしステレオ画像整合性の損失を組み合わせた半教師付きアプローチを提案し、モノキュラ深度推定のための深層残差エンコーダ-デコーダを訓練して、KITTIで最先端の結果を達成します。

ABSTRACT

Supervised deep learning often suffers from the lack of sufficient training data. Specifically in the context of monocular depth map prediction, it is barely possible to determine dense ground truth depth images in realistic dynamic outdoor environments. When using LiDAR sensors, for instance, noise is present in the distance measurements, the calibration between sensors cannot be perfect, and the measurements are typically much sparser than the camera images. In this paper, we propose a novel approach to depth map prediction from monocular images that learns in a semi-supervised way. While we use sparse ground-truth depth for supervised learning, we also enforce our deep network to produce photoconsistent dense depth maps in a stereo setup using a direct image alignment loss. In experiments we demonstrate superior performance in depth map prediction from single images compared to the state-of-the-art methods.

研究の動機と目的

屋外シーン向けの密な地上真値深度データが不足している問題に対処する。
疎なLiDAR測定値と教師なしステレオの手掛かりを活用する。
監視付き・教師なし・正則化項を組み合わせた半教師付き損失を開発する。
高精細な深度マップのために長いスキップ接続を備えた深い残差エンコーダ-デコーダを活用する。
KITTIデータセットで最先端の性能を示し、アブレーション解析を行う。

提案手法

長いスキップ接続を備えたResNet-50ベースのエンコーダ-デコーダを用い、モノラルRGB画像から各ピクセルの逆深度を予測する。
スパースLiDARから投影された監視付き深度残差、ステレオ対間の教師なしフォトメトリック（画像整合）損失、深度滑らかさ正則化項を含む統一的な半教師付き損失で訓練する。
監視項には適応デルタを持つBerHu損失を用い、より大きな残差を強調する。
左視点と右視点の間で対称的なフォトメトリック整合性を、左/右視差の明示的制約なしに強制する。
ImageNet事前学習済みエンコーダで初期化し、収束を助けるために監視項を段階的にフェードインする。
KITTIで標準指標（RMSE、RMSE log、閾値での精度、ARD、SRD）を用いて評価し、最先端と比較する。

実験結果

リサーチクエスチョン

RQ1LiDARからの疎な地上真値深度を、教師なしステレオフォトメトリック損失と効果的に組み合わせて、正確なモノキャメラ深度予測器を訓練できるか？
RQ2半教師付きフレームワークは、純粋な監視付きまたは教師なしアプローチと比較して深度精度と収束速度を向上させるか？
RQ3建築的選択（長いスキップ接続、BerHu損失、対称損失）が深度マップの品質に与える影響はどの程度か？
RQ4KITTI以外の他の屋外データセットへモデルはどの程度一般化できるか。

主な発見

Approach	RMSE (lower is better)	RMSE (log) (lower is better)	delta<1.25 (higher is better)	delta<1.25^2 (higher is better)	delta<1.25^3 (higher is better)
Ours	4.621	0.189	0.862	0.960	0.986
Ours, supervised only	4.815	0.194	0.845	0.957	0.987
Godard et al. [9]	5.849	0.242	0.818	0.929	0.966
Godard et al. [9] + CS + post-processing	5.381	0.224	0.843	0.941	0.972

提案された半教師付きアプローチはKITTIで最先端の深度推定を達成し、複数の指標で従来手法を上回る。
教師なしの画像整合損失を用いることで性能が向上し、特に真値が疎な遠距離で顕著。
BerHu損失は、L2損失よりもクリーンでノイズの少ない深度マップをもたらす。
長いスキップ接続とガウシアン平滑化が、収束を速め、深度マップの細部を改善する。
完全な半教師付きモデル（Our）は、0-80 m KITTIテストでRMSE 4.621、RMSE log 0.189、delta<1.25 0.862、delta<1.25^2 0.960、delta<1.25^3 0.986を達成（キャップ80m）。
純粋な監視型バリアントは性能が劣る（RMSE 4.815、RMSE log 0.194、delta<1.25 0.845、delta<1.25^2 0.957、delta<1.25^3 0.987）。
純粋な教師なしバリアントは0-80mのKITTIで性能が劣る（RMSE 8.700、RMSE log 0.367、delta<1.25 0.752、delta<1.25^2 0.904、delta<1.25^3 0.952）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。