QUICK REVIEW

[论文解读] Learning Guided Convolutional Network for Depth Completion

Jie Tang, Fei-Peng Tian|arXiv (Cornell University)|Aug 3, 2019

Advanced Vision and Imaging参考文献 36被引用 26

一句话总结

本文提出一种学习引导卷积网络（LGCN）用于深度补全，通过从RGB引导图像动态生成空间可变卷积核，以改善稀疏LiDAR与RGB数据之间的多模态融合。通过采用一种分解策略来减少内存和计算量的学习引导卷积模块，该方法在NYUv2和KITTI基准上实现了最先进性能，且在多种条件和数据集上展现出优异的泛化能力。

ABSTRACT

Dense depth perception is critical for autonomous driving and other robotics applications. However, modern LiDAR sensors only provide sparse depth measurement. It is thus necessary to complete the sparse LiDAR data, where a synchronized guidance RGB image is often used to facilitate this completion. Many neural networks have been designed for this task. However, they often na\"ıvely fuse the LiDAR data and RGB image information by performing feature concatenation or element-wise addition. Inspired by the guided image filtering, we design a novel guided network to predict kernel weights from the guidance image. These predicted kernels are then applied to extract the depth image features. In this way, our network generates content-dependent and spatially-variant kernels for multi-modal feature fusion. Dynamically generated spatially-variant kernels could lead to prohibitive GPU memory consumption and computation overhead. We further design a convolution factorization to reduce computation and memory consumption. The GPU memory reduction makes it possible for feature fusion to work in multi-stage scheme. We conduct comprehensive experiments to verify our method on real-world outdoor, indoor and synthetic datasets. Our method produces strong results. It outperforms state-of-the-art methods on the NYUv2 dataset and ranks 1st on the KITTI depth completion benchmark at the time of submission. It also presents strong generalization capability under different 3D point densities, various lighting and weather conditions as well as cross-dataset evaluations. The code will be released for reproduction.

研究动机与目标

通过使用同步的RGB图像作为引导，解决机器人和自动驾驶中稀疏LiDAR深度数据的挑战，以完成稠密深度图。
克服现有深度学习方法在深度补全中采用朴素特征融合（如拼接或相加）的局限性。
设计一种可学习的、与内容相关的、空间可变的卷积核生成机制，受引导图像滤波启发。
通过一种新颖的卷积分解技术，降低空间可变卷积的高GPU内存和计算成本。
在编码器-解码器架构中实现多阶段特征融合，以提升深度补全性能。

提出的方法

训练一种新型引导网络（GuideNet），从RGB引导图像中预测空间可变卷积核权重。
通过引导卷积模块应用这些预测的核，从稀疏LiDAR输入中提取深度特征，实现内容感知和空间自适应的特征融合。
引入一种卷积分解技术，将空间可变核分解为深度可分离和逐点卷积组件，显著降低GPU内存和计算量。
整体架构结合编码器-解码器网络（DepthNet）与GuideNet，采用残差块和跳跃连接进行特征优化。
采用多尺度监督和损失函数（包括RMSE和相对误差）进行端到端训练。
通过分解技术实现高效的空间可变卷积应用，支持多阶段融合。

实验结果

研究问题

RQ1可学习的、与内容相关的核生成机制是否能超越标准特征融合方式，提升深度补全性能？
RQ2如何使空间可变卷积在实时深度补全中具备计算可行性？
RQ3所提出的引导卷积模块是否能在不同点云密度、光照、天气和传感器配置下保持泛化能力？
RQ4该方法是否能在室内（NYUv2）和室外（KITTI）基准上均实现最先进性能？
RQ5该方法在跨数据集泛化方面与现有方法相比表现如何？

主要发现

在提交时，该方法在KITTI深度补全基准上实现了最低的RMSE（0.060），在最先进方法中排名第一。
在NYUv2数据集上，该方法实现了0.060的RMSE，优于以往最先进方法。
该方法在多种复杂条件下（如雾天、雨天、日落、清晨）均保持稳定性能，所有条件下RMSE变化小于0.02。
在SUN RGBD数据集上，当在NYUv2上训练时，该方法在500个样本下实现RMSE 0.096，在200个样本下实现RMSE 0.139，优于Ma等人[54]和NConv-CNN[33]，无论使用Kinect V1还是Xtion数据。
该方法展现出强大的跨数据集泛化能力，SUN RGBD上的结果与NYUv2上结果高度接近，即使使用不同传感器也是如此。
消融研究证实，引导卷积和分解组件对性能与效率至关重要，消融变体表现出显著的性能下降。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。