[论文解读] Self-supervised Sparse-to-Dense: Self-supervised Depth Completion from LiDAR and Monocular Camera
本文提出一种基于单目RGB图像和稀疏LiDAR扫描的自监督深度学习框架,用于稀疏到稠密的深度补全,无需依赖稠密深度标注。该方法在KITTI基准上实现了最先进性能,自监督训练的效果优于使用半稠密标注训练的模型,并表明深度误差随输入测量点数的增加呈幂律下降趋势。
Depth completion, the technique of estimating a dense depth image from sparse depth measurements, has a variety of applications in robotics and autonomous driving. However, depth completion faces 3 main challenges: the irregularly spaced pattern in the sparse depth input, the difficulty in handling multiple sensor modalities (when color images are available), as well as the lack of dense, pixel-level ground truth depth labels. In this work, we address all these challenges. Specifically, we develop a deep regression model to learn a direct mapping from sparse depth (and color images) to dense depth. We also propose a self-supervised training framework that requires only sequences of color and sparse depth images, without the need for dense depth labels. Our experiments demonstrate that our network, when trained with semi-dense annotations, attains state-of-the- art accuracy and is the winning approach on the KITTI depth completion benchmark at the time of submission. Furthermore, the self-supervised framework outperforms a number of existing solutions trained with semi- dense annotations.
研究动机与目标
- 解决自动驾驶中从稀疏、非规则分布的LiDAR扫描中进行深度补全的挑战。
- 克服RGB与LiDAR模态融合的困难,以提升深度预测性能。
- 通过引入自监督训练框架,消除对昂贵的像素级稠密深度标注的依赖。
- 仅使用RGB图像和稀疏深度序列,在KITTI深度补全基准上实现最先进精度。
- 证明深度补全误差随输入深度测量点数的增加而减小,且符合幂律关系。
提出的方法
- 提出一种深度回归网络,直接将稀疏深度和RGB输入映射为稠密深度预测结果。
- 设计一种自监督训练目标,利用立体或视频序列中预测图像与观测图像之间的光度一致性。
- 使用可微分的图像重映射层,通过预测深度和相机参数重建输入RGB图像,以监督深度预测。
- 仅使用RGB和稀疏深度图像序列进行端到端训练,无需任何真实稠密深度标签。
- 通过共享编码器或后期融合机制,同时融合稀疏深度和RGB特征,以提升预测精度。
- 使用KITTI深度补全基准上的RMSE评估性能,并与半稠密监督和无监督基线方法进行比较。
实验结果
研究问题
- RQ1自监督框架是否能在不依赖稠密深度标注的情况下实现最先进深度补全精度?
- RQ2在自监督训练下,RGB图像的引入如何影响深度补全性能?
- RQ3输入深度测量点数与预测误差之间存在何种关系?
- RQ4稀疏深度采样点的空间分布模式(如扫描线与均匀子采样)如何影响最终精度?
- RQ5自监督训练是否能实现与使用半稠密标注的监督训练相当或更优的性能?
主要发现
- 所提方法在提交时于KITTI深度补全基准上实现了最先进性能,优于所有已发表的先前方法。
- 自监督框架优于多个使用半稠密标注训练的现有方法,证明了无监督方法的有效性。
- 深度补全误差随输入测量点数的增加呈幂函数下降,表明更高LiDAR分辨率带来的收益递减。
- 与减少扫描线相比,对深度点进行均匀随机子采样可获得更高精度,因其测量点的空间分布更分散。
- 在使用半稠密标注训练时,引入RGB输入可显著降低预测误差,尤其在测量点数较少时效果更明显。
- 在自监督训练中,RGB输入带来的性能增益减弱,可能由于网络早期收敛,导致RGB特征的网络容量受限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。