QUICK REVIEW

[论文解读] Learning Depth-Guided Convolutions for Monocular 3D Object Detection

Mingyu Ding, Yuqi Huo|arXiv (Cornell University)|Dec 10, 2019

Advanced Neural Network Applications被引用 30

一句话总结

该论文提出D⁴LCN，一种新颖的深度引导动态深度可分离空洞卷积神经网络，能够从单目深度图中学习样本特定、位置特定、深度可分离且自适应感受野的卷积核。通过用深度引导、动态和空洞卷积核替代标准2D卷积，D⁴LCN在不依赖伪LiDAR的情况下提升了3D目标检测的准确性，在KITTI数据集上相比SOTA实现了9.1%的相对性能提升，并在提交时在单目3D检测基准中排名第一。

ABSTRACT

3D object detection from a single image without LiDAR is a challenging task due to the lack of accurate depth information. Conventional 2D convolutions are unsuitable for this task because they fail to capture local object and its scale information, which are vital for 3D object detection. To better represent 3D structure, prior arts typically transform depth maps estimated from 2D images into a pseudo-LiDAR representation, and then apply existing 3D point-cloud based object detectors. However, their results depend heavily on the accuracy of the estimated depth maps, resulting in suboptimal performance. In this work, instead of using pseudo-LiDAR representation, we improve the fundamental 2D fully convolutions by proposing a new local convolutional network (LCN), termed Depth-guided Dynamic-Depthwise-Dilated LCN (D$^4$LCN), where the filters and their receptive fields can be automatically learned from image-based depth maps, making different pixels of different images have different filters. D$^4$LCN overcomes the limitation of conventional 2D convolutions and narrows the gap between image representation and 3D point cloud representation. Extensive experiments show that D$^4$LCN outperforms existing works by large margins. For example, the relative improvement of D$^4$LCN against the state-of-the-art on KITTI is 9.1\% in the moderate setting. The code is available at https://github.com/dingmyu/D4LCN.

研究动机与目标

解决传统2D卷积在捕捉单目3D目标检测中尺度与深度感知特征方面的局限性。
通过将深度引导直接整合到卷积核学习过程中，克服伪LiDAR方法对不准确深度图的依赖。
在不依赖伪LiDAR转换的前提下，弥合2D图像特征与3D点云表示之间的表征差距。
通过利用深度图实现端到端训练，提升特征学习能力，使其能够自适应局部几何结构与尺度变化。

提出的方法

提出D⁴LCN，一种局部卷积神经网络，其中卷积核根据每个像素和通道动态生成，并由深度图提供引导。
引入一种深度引导滤波模块，用于学习样本特定、局部、深度可分离且具有自适应感受野的空洞卷积核。
采用动态、深度可分离且空洞的卷积机制，其中每个卷积核具有独特的膨胀率，从而在特征图的不同位置实现可变感受野。
使用位移池化操作，以更少的参数高效捕获多尺度特征，相比标准卷积更具参数效率。
仅使用单目RGB图像和预测的深度图进行端到端训练，避免对LiDAR或额外标注的依赖。
利用非中心视角姿态回归，以保持与位置无关的一致性物体视角表示。

实验结果

研究问题

RQ1在不依赖伪LiDAR的前提下，深度引导的动态卷积核是否能提升单目设置下的3D目标检测性能？
RQ2学习样本特定、位置特定且深度可分离的卷积核，并结合自适应感受野，是否能带来更优的尺度与深度感知特征表示？
RQ3仅使用单目图像和深度图的完全端到端可训练网络是否能在KITTI上超越现有SOTA方法？
RQ4自适应膨胀机制与固定或共享膨胀率相比，在处理多尺度3D目标检测时表现如何？

主要发现

D⁴LCN在KITTI中等难度集上的汽车检测任务中达到26.97%的平均精度（AP），相比之前SOTA有9.1%的相对提升。
在提交时，该模型在KITTI单目3D目标检测基准中排名第一，优于所有先前方法。
消融实验表明，动态、深度可分离与空洞卷积的组合带来了最大的性能增益，尤其是自适应膨胀机制。
得益于高效的深度可分离与位移池化设计，该模型在更少参数下实现了更优性能。
各网络块中膨胀率的分布显示，网络在早期层倾向于使用大感受野，并在后期层平衡多种膨胀率，以实现多尺度检测。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。