[论文解读] HMS-Net: Hierarchical Multi-scale Sparsity-invariant Network for Sparse Depth Completion
HMS-Net 提出了一种分层多尺度编码器-解码器网络,包含三种新型的稀疏性不变操作——稀疏性不变上采样、平均操作以及与卷积的拼接操作,以有效处理稀疏深度输入和特征图。该方法在 KITTI 和 NYU-depth-v2 基准测试中达到最先进性能,在无 RGB 的同行评审方法中排名第一,在 RGB 引导的方法中排名第二。
Dense depth cues are important and have wide applications in various computer vision tasks. In autonomous driving, LIDAR sensors are adopted to acquire depth measurements around the vehicle to perceive the surrounding environments. However, depth maps obtained by LIDAR are generally sparse because of its hardware limitation. The task of depth completion attracts increasing attention, which aims at generating a dense depth map from an input sparse depth map. To effectively utilize multi-scale features, we propose three novel sparsity-invariant operations, based on which, a sparsity-invariant multi-scale encoder-decoder network (HMS-Net) for handling sparse inputs and sparse feature maps is also proposed. Additional RGB features could be incorporated to further improve the depth completion performance. Our extensive experiments and component analysis on two public benchmarks, KITTI depth completion benchmark and NYU-depth-v2 dataset, demonstrate the effectiveness of the proposed approach. As of Aug. 12th, 2018, on KITTI depth completion leaderboard, our proposed model without RGB guidance ranks first among all peer-reviewed methods without using RGB information, and our model with RGB guidance ranks second among all RGB-guided methods.
研究动机与目标
- 解决在自动驾驶和机器人领域中,从稀疏 LIDAR 输入生成稠密深度图的挑战。
- 克服传统 CNN 和先前稀疏性不变卷积的局限性,即空间分辨率损失以及难以有效融合多尺度特征。
- 设计新型操作,以保持稀疏性掩码并实现在编码器-解码器架构中有效的多尺度特征融合。
- 通过集成 RGB 特征进行引导,提升深度补全精度,同时保持对输入稀疏性和噪声的鲁棒性。
- 在不同污染和稀疏水平下,于公开基准测试中展示卓越的性能和鲁棒性。
提出的方法
- 提出三种稀疏性不变操作:稀疏性不变上采样、稀疏性不变平均操作,以及与卷积的联合稀疏性不变拼接操作。
- 在每一层使用稀疏性掩码,以追踪非零特征位置,并指导前向和反向传播。
- 设计一种分层多尺度编码器-解码器网络(HMS-Net),通过跳跃连接融合低层和高层特征。
- 通过模态特定分支集成 RGB 特征,以增强深度补全效果,同时避免在主网络中依赖 RGB 信息。
- 应用批量归一化和最大池化层,以稳定训练并提升在极稀疏输入下的特征学习能力。
- 在 KITTI 和 NYU-depth-v2 上使用 L1 和 L2 损失进行端到端训练,数据增强包括高斯噪声和随机点删除。
实验结果
研究问题
- RQ1稀疏性不变操作是否能够在编码器-解码器网络中实现有效的多尺度特征融合,以用于稀疏深度补全?
- RQ2所提出的 HMS-Net 架构在准确性和鲁棒性方面,与传统 CNN 及先前稀疏性不变模型相比如何?
- RQ3当与稀疏 LIDAR 输入结合时,RGB 特征能在多大程度上提升深度补全性能?
- RQ4该方法对不同水平的输入稀疏性和传感器噪声(如高斯噪声、遮挡)的鲁棒性如何?
- RQ5具有稀疏性感知操作的分层多尺度设计是否能带来更好的边界保持效果并减少伪影?
主要发现
- 在 KITTI 深度补全基准测试中,HMS-Net 在无 RGB 引导的同行评审方法中表现最佳,排名第一。
- 在 RGB 引导条件下,截至 2018 年 8 月 12 日,HMS-Net 在 KITTI 排行榜中位列所有 RGB 引导方法中的第二名。
- 在 NYU-depth-v2 数据集中,HMS-Net 在所有测试稀疏度水平(N = 20, 50, 200)下均实现了最低的 RMSE 和 REL,当 N=200 时,RMSE 为 0.233,REL 为 0.044。
- 该模型在场景级和区域级高斯噪声以及随机点删除条件下,表现出对噪声更强的鲁棒性,优于 SparseConvs 和 IP-Basic 在所有污染条件下的表现。
- 即使在高达 90% 的输入深度点被移除的情况下,该方法仍保持高性能,显示出对极端稀疏性的强容忍能力。
- 消融实验确认,所提出的稀疏性不变操作和多尺度编码器-解码器结构对性能提升至关重要,尤其在保持物体边界和减少噪声方面。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。