QUICK REVIEW

[論文レビュー] Self-supervised Sparse-to-Dense: Self-supervised Depth Completion from LiDAR and Monocular Camera

Fangchang Ma, Guilherme V. Cavalheiro|arXiv (Cornell University)|Jul 1, 2018

Advanced Vision and Imaging参考文献 5被引用数 23

ひとこと要約

本論文は、モノクロナルRGB画像とスパースLiDARスキャンを用いて、密度の高い深度推定を自己教師付き深層学習フレームワークで実現する手法を提案する。密度の高い深度アノテーションの必要性を排除した。本手法はKITTIベンチマークで最先端の性能を達成し、自己教師付き学習が半密度アノテーションで学習されたモデルを上回り、入力測定回数の増加に伴い深度誤差がべき乗関数として減少することを示した。

ABSTRACT

Depth completion, the technique of estimating a dense depth image from sparse depth measurements, has a variety of applications in robotics and autonomous driving. However, depth completion faces 3 main challenges: the irregularly spaced pattern in the sparse depth input, the difficulty in handling multiple sensor modalities (when color images are available), as well as the lack of dense, pixel-level ground truth depth labels. In this work, we address all these challenges. Specifically, we develop a deep regression model to learn a direct mapping from sparse depth (and color images) to dense depth. We also propose a self-supervised training framework that requires only sequences of color and sparse depth images, without the need for dense depth labels. Our experiments demonstrate that our network, when trained with semi-dense annotations, attains state-of-the- art accuracy and is the winning approach on the KITTI depth completion benchmark at the time of submission. Furthermore, the self-supervised framework outperforms a number of existing solutions trained with semi- dense annotations.

研究の動機と目的

自動運転における不規則に配置されたスパースなLiDARスキャンからの深度補完の課題に対処する。
より良い深度予測のためのRGBとLiDARモダリティの融合の難しさを克服する。
自己教師付き学習フレームワークを導入することで、高価なピxls単位の密度の高い深度アノテーションに依存しないようにする。
RGBとスパース深度シーケンスのみを用いてKITTI深度補完ベンチマークで最先端の精度を達成する。
入力深度測定回数と予測誤差の関係がべき乗則に従うことを示す。

提案手法

スパース深度とRGB入力を直接密度の高い深度予測にマップする深層回帰ネットワークを提案する。
ステレオまたは動画シーケンスを用いて予測画像と観測画像間の光度的一致性を活用する自己教師付き学習目的関数を設計する。
入力RGB画像を予測深度とカメラパrametersから再構成することで、可微分なワープレイヤーを用いて深度予測を監視する。
密度の高い深度ラベルが一切不要なRGBとスパース深度画像のシーケンスのみを用いて、エンドツーエンドでネットワークを学習する。
予測精度の向上を図るために、スパース深度とRGBの特徴を共通エンコーダーまたはラテラルフィュージョンメカニズムで統合する。
KITTI深度補完ベンチマークにおける性能をRMSEで評価し、半密度教師ありおよび非教師ありベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1密度の高いアノテーションを必要としない自己教師付きフレームワークが、最先端の深度補完精度を達成できるか？
RQ2自己教師付き学習下でRGB画像の導入が深度補完性能に与える影響は何か？
RQ3深度補完における入力深度測定回数と予測誤差の関係は何か？
RQ4スパース深度サンプルの空間的パターン（例：スキャンライン vs. 均等サブサンプリング）が最終的な精度に与える影響は何か？
RQ5自己教師付き学習は、半密度アノテーションで学習された教師あり学習と同等またはそれ以上の性能を達成できるか？

主な発見

本手法は、提出時のKITTI深度補完ベンチマークで最先端の性能を達成し、これまでに発表されたすべての手法を上回った。
自己教師付きフレームワークは、半密度アノテーションで学習された複数の既存手法を上回り、非教師ありアプローチの有効性を示した。
深度補完誤差は、入力測定回数のべき乗関数として減少し、LiDAR解像度の向上に伴い収益逓減の傾向があることを示した。
スパース深度点の均等なランダムサブサンプリングは、スキャンラインの削減よりも優れた精度をもたらした。これは、測定値の空間的分布がより分散しているためである。
半密度アノテーションで学習した場合、RGB入力の導入により予測誤差が顕著に低下したが、特に測定回数が少ない場合に顕著であった。
自己教師付き学習では、RGB入力による性能向上がやや減少した。これは、初期収束やRGB特徴のためのネットワーク容量の制限が原因である可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。