QUICK REVIEW

[论文解读] PENet: Towards Precise and Efficient Image Guided Depth Completion

Mu Hu, Shuling Wang|arXiv (Cornell University)|Mar 1, 2021

Advanced Vision and Imaging参考文献 32被引用 24

一句话总结

PENet 提出了一种双分支主干网络，分别从稀疏深度图和高分辨率图像中提取以颜色为主导和以深度为主导的特征，并通过学习到的置信度权重自适应融合两个分支的预测结果。该方法引入了一种几何卷积层以编码三维空间线索，并集成了空洞化、加速化的 CSPN++ 以实现高效细化，在 KITTI 深度补全基准测试中实现了最先进性能，推理速度极快，线上排行榜排名第一。

ABSTRACT

Image guided depth completion is the task of generating a dense depth map from a sparse depth map and a high quality image. In this task, how to fuse the color and depth modalities plays an important role in achieving good performance. This paper proposes a two-branch backbone that consists of a color-dominant branch and a depth-dominant branch to exploit and fuse two modalities thoroughly. More specifically, one branch inputs a color image and a sparse depth map to predict a dense depth map. The other branch takes as inputs the sparse depth map and the previously predicted depth map, and outputs a dense depth map as well. The depth maps predicted from two branches are complimentary to each other and therefore they are adaptively fused. In addition, we also propose a simple geometric convolutional layer to encode 3D geometric cues. The geometric encoded backbone conducts the fusion of different modalities at multiple stages, leading to good depth completion results. We further implement a dilated and accelerated CSPN++ to refine the fused depth map efficiently. The proposed full model ranks 1st in the KITTI depth completion online leaderboard at the time of submission. It also infers much faster than most of the top ranked methods. The code of this work is available at https://github.com/JUGGHM/PENet_ICRA2021.

研究动机与目标

为了解决从稀疏深度输入和高分辨率彩色图像生成精确稠密深度图的挑战。
通过设计一个双分支网络，分别强调颜色主导和深度主导特征，以改进彩色与深度模态之间的融合。
通过直接将三维几何线索编码进卷积层，而不依赖外部监督或预训练，来增强特征表示能力。
利用轻量化、加速化的 CSPN++ 变体高效细化融合后的深度预测，实现高速推理。
在准确率和计算效率两方面均实现卓越性能，优于现有方法。

提出的方法

该方法采用双分支主干结构：颜色主导（CD）分支处理彩色图像和稀疏深度图，生成对纹理和边界敏感的稠密深度图。
深度主导（DD）分支将稀疏深度图和 CD 分支的预测结果作为输入，生成第二个稠密深度图，强调结构一致性，但在边缘附近容易受噪声影响。
通过可学习的置信度权重，自适应融合两个预测的深度图，以结合其互补优势。
通过将三维位置图拼接至每个卷积层的输入，引入几何卷积层（GCL），实现对三维空间几何结构的显式编码。
实现了一种空洞化且加速化的（DA）CSPN++ 模块，用于细化融合后的深度图，显著降低传播时间，同时保持高精度。
整个模型从零开始训练，无需依赖 Cityscapes 或合成数据等额外数据集。

实验结果

研究问题

RQ1是否双分支网络分别强调颜色主导与深度主导特征，能优于晚期或早期融合基线方法？
RQ2是否显式将三维几何位置线索编码进卷积层，能提升深度预测精度，尤其是在物体边界附近？
RQ3经过改进和加速的 CSPN++ 变体能否实现高效细化，同时将推理时间显著缩短？
RQ4所提方法是否在 KITTI 深度补全基准测试中，同时实现最先进准确率与最快速度？
RQ5该模型是否能在不依赖外部预训练数据集的情况下实现高性能？

主要发现

PENet 在 KITTI 深度补全测试集上实现了 730.08 的最低 RMSE，显著优于比较表中列出的所有其他已发表方法。
与标准卷积相比，几何卷积层（GCL）大幅提升了主干网络的 RMSE 表现，且优于坐标编码（CCL）和仅深度编码（DCL）变体。
在提交时，该模型在 KITTI 在线排行榜上排名第一，单张 2080Ti GPU 上运行时间为 0.032 秒，推理速度优于 8/10 的顶尖方法。
即使不使用细化模块，仅几何编码主干（ENet）的 RMSE 为 741.30，仍优于 9/10 的顶尖方法，包括使用空间传播技术的方法。
所提出的 DA-CSPN++ 模块将传播时间减少至 0.015 秒，相比原始 CSPN++ 减少了 92%，相比 NLSPN 减少了 95%，同时保持高精度。
该模型在无需 Cityscapes 或合成数据等大规模预训练数据集的情况下实现高性能，支持从零开始训练。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。