Skip to main content
QUICK REVIEW

[論文レビュー] Sparse-to-Dense: Depth Prediction from Sparse Depth Samples and a Single Image

Fangchang Ma, Sertaç Karaman|arXiv (Cornell University)|Sep 21, 2017
Advanced Vision and Imaging参考文献 20被引用数 100
ひとこと要約

この論文は、RGB画像と希少な深度サンプルの組み合わせから密な深度を予測する単一の深層回帰ネットワークを提示します。わずか100個の深度サンプルを取り入れるだけで、NYU-Depth-v2とKITTIにおいてRGBのみの方法に対して大幅な精度向上を達成します。

ABSTRACT

We consider the problem of dense depth prediction from a sparse set of depth measurements and a single RGB image. Since depth estimation from monocular images alone is inherently ambiguous and unreliable, to attain a higher level of robustness and accuracy, we introduce additional sparse depth samples, which are either acquired with a low-resolution depth sensor or computed via visual Simultaneous Localization and Mapping (SLAM) algorithms. We propose the use of a single deep regression network to learn directly from the RGB-D raw data, and explore the impact of number of depth samples on prediction accuracy. Our experiments show that, compared to using only RGB images, the addition of 100 spatially random depth samples reduces the prediction root-mean-square error by 50% on the NYU-Depth-v2 indoor dataset. It also boosts the percentage of reliable prediction from 59% to 92% on the KITTI dataset. We demonstrate two applications of the proposed algorithm: a plug-in module in SLAM to convert sparse maps to dense maps, and super-resolution for LiDARs. Software and video demonstration are publicly available.

研究の動機と目的

  • 低解像度センサーやSLAM出力からの希少な深度サンプルとRGBを融合して、頑健な深度推定を動機づける。
  • RGB-Dデータ(RGBと希少深度を含む)を入力とし、密な深度を予測する単一のCNNアーキテクチャを提案する。
  • 屋内データセットNYU-Depth-v2と屋外データKITTIで、深度サンプルの数が予測精度に与える影響を評価する。
  • SLAM/VIOの密マップ増強およびLiDAR超解像における実用的な応用を示す。

提案手法

  • KITTIにはResNet-18ベースのエンコーダ、NYU-Depth-v2にはResNet-50ベースのエンコーダを用い、4倍アップサンプリングデコーダ(UpProj)を用いるCNNアーキテクチャを使用する。
  • ターゲットサンプル数をm、総有効深度ピクセル数をnとすると、確率p = m/nのベルヌーイ方式で真の深度からオンラインサンプルされた希少深度で訓練する。
  • 希少ポイントを保持するため、最近傍補間を用いて、オンラインデータ拡張(スケーリング、回転、カラージッター、正規化、フリップ)を適用する。
  • デフォルトのL1損失で最適化する(外れ値に比較的頑健でエッジを保持)。
  • パフォーマンスを最適化するため、アップサンプリングモジュール(DeConv、UpConv、UpProj)と最初の畳み込み(Conv、DepthWise、ChanDrop)を比較する。

実験結果

リサーチクエスチョン

  • RQ1RGB入力に希少深度サンプルを追加することは、RGB単独と比較して密な深度予測をどの程度改善するか?
  • RQ2室内データセットと室外データセットで、希少深度サンプルの数が予測精度に与える影響はどの程度か?
  • RQ3RGB+希少深度モデルは、SLAM/VIOへのプラグインとして密マップを生成し、LiDAR超解像を実現できるか?
  • RQ4どのネットワーク設計の選択(エンコーダの種類、アップサンプリング手法、初層の畳み込み)によって最良の深度予測性能が得られるか?

主な発見

  • NYU-Depth-v2では、100個の希少深度サンプルを追加すると、RGBのみと比較してRMSEを約50%低減する。
  • KITTIでは、100個の希少深度サンプルにより、信頼性の高い予測が59%から92%へ向上する。
  • RGBd(RGBプラス約100の希少深度サンプル)は、RGB単独や希少深度単独より大幅に上回り、200–1000サンプルでも飽和するまで性能は向上し続ける。
  • NYU-Depth-v2では、100サンプルのRGBdはRMSE約0.25m、REL約0.05を達成し、深度入力なしのRGBベース手法よりかなり優れている。
  • KITTIでは、100サンプルのRGBdはRMSE約3.5m、REL約0.07を達成し、RGBおよび一部の融合手法を、はるかに少ない深度サンプル数で上回る。
  • この手法は、稀なSLAM/VIOランドマークからの密なマップ再構成とLiDAR超解像を、比較的少ない深度入力で実現可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。