QUICK REVIEW

[論文レビュー] Learning Guided Convolutional Network for Depth Completion

Jie Tang, Fei-Peng Tian|arXiv (Cornell University)|Aug 3, 2019

Advanced Vision and Imaging参考文献 36被引用数 26

ひとこと要約

本稿では、スパースなLiDARとRGBデータ間のマルチモーダル融合を向上させるために、RGBガイド画像から空間的に変化する畳み込みカーネルを動的に生成する学習ガイドド畳み込みネットワーク（LGCN）を提案する。学習ガイドド畳み込みモジュールを要因分解戦略と組み合わせることでメモリと計算量を削減し、NYUv2およびKITTIベンチマークで最先端の性能を達成した。また、多様な環境やデータセットにおいても優れた一般化性能を示した。

ABSTRACT

Dense depth perception is critical for autonomous driving and other robotics applications. However, modern LiDAR sensors only provide sparse depth measurement. It is thus necessary to complete the sparse LiDAR data, where a synchronized guidance RGB image is often used to facilitate this completion. Many neural networks have been designed for this task. However, they often na\"ıvely fuse the LiDAR data and RGB image information by performing feature concatenation or element-wise addition. Inspired by the guided image filtering, we design a novel guided network to predict kernel weights from the guidance image. These predicted kernels are then applied to extract the depth image features. In this way, our network generates content-dependent and spatially-variant kernels for multi-modal feature fusion. Dynamically generated spatially-variant kernels could lead to prohibitive GPU memory consumption and computation overhead. We further design a convolution factorization to reduce computation and memory consumption. The GPU memory reduction makes it possible for feature fusion to work in multi-stage scheme. We conduct comprehensive experiments to verify our method on real-world outdoor, indoor and synthetic datasets. Our method produces strong results. It outperforms state-of-the-art methods on the NYUv2 dataset and ranks 1st on the KITTI depth completion benchmark at the time of submission. It also presents strong generalization capability under different 3D point densities, various lighting and weather conditions as well as cross-dataset evaluations. The code will be released for reproduction.

研究の動機と目的

ロボット工学および自動運転分野におけるスパースなLiDAR深度データの課題に対処し、同期されたRGB画像をガイドとして用いて高密度の深度マップを完成させること。
従来のディープラーニング手法における特徴量の単純な統合（例：連結や加算）の限界を克服すること。
ガイドド画像フィルタリングにインspiredされた、学習可能でコンテンツ依存性のある空間的に変化する畳み込みカーネル生成メカニズムを設計すること。
空間的に変化する畳み込みの高いGPUメモリと計算コストを、新しい畳み込み要因分解技術によって軽減すること。
エンコーダ・デコーダアーキテクチャにおいて、特徴量のマルチステージ統合を可能にし、深度完成の性能を向上させること。

提案手法

RGBガイド画像から空間的に変化する畳み込みカーネル重みを予測する新しいガイドネットワーク（GuideNet）を訓練する。
予測されたカーネルはガイドド畳み込みモジュールを介して、スパースなLiDAR入力からの深度特徴量を抽出する。これにより、コンテンツに適応した空間的に適応的な特徴量統合が可能になる。
空間的に変化するカーネルを深さ方向およびポイントワイド成分に分解する要因分解技術を導入し、GPUメモリと計算量を顕著に削減する。
エンコーダ・デコーダネットワーク（DepthNet）とGuideNetを組み合わせた全体アーキテクチャを構築し、残差ブロックとスキップ接続を用いて特徴量の精練を実現する。
マルチスケールの監督と、RMSEおよび相対誤差を含む損失関数を用いて、エンドツーエンドでネットワークを訓練する。
要因分解により空間的に変化する畳み込みの効率的な適用を可能にし、マルチステージ統合を実現する。

実験結果

リサーチクエスチョン

RQ1学習可能でコンテンツ依存性のあるカーネル生成メカニズムは、標準的な特徴量統合を上回る深度完成性能を実現できるか？
RQ2空間的に変化する畳み込みをリアルタイムの深度完成に実用可能にするにはどうすればよいか？
RQ3提案されたガイドド畳み込みモジュールは、点密度、照明、天候、センサ構成の変化に対しても一般化できるか？
RQ4本手法は、屋内（NYUv2）および屋外（KITTI）の両ベンチマークで最先端の性能を達成できるか？
RQ5本手法は、既存のアプローチと比較して、クロスデータセット一般化性能に優れているか？

主な発見

提出手法は、提出時点でのKITTI深度完成ベンチマークでRMSE 0.060を達成し、最先端手法の中で1位の順位を獲得した。
NYUv2データセットでは、RMSE 0.060を達成し、以前の最先端手法を上回った。
本手法は、さまざまな条件下（例：霧、雨、日没、朝）でも安定した性能を維持し、すべての条件下でRMSEが0.02未満の変動にとどまった。
SUN RGBDデータセットでは、NYUv2で学習した場合、RMSEが500サンプルで0.096、200サンプルで0.139を達成し、Kinect V1およびXtionデータの両方において、Maら[54]およびNConv-CNN[33]を上回った。
クロスデータセット一般化性能が強く、異なるセンサを用いてもSUN RGBDでの結果がNYUv2とほぼ同等の水準を維持した。
アブレーションスタディにより、ガイドド畳み込みおよび要因分解のコンponentsが性能と効率に不可欠であることが確認され、変種のアブレーション実験では顕著な性能低下が観察された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。