[论文解读] Deep Robust Single Image Depth Estimation Neural Network Using Scene Understanding
本文提出了一种两阶段鲁棒单图像深度估计框架,利用场景理解将图像分类为低或高深度范围类别,随后应用特定领域的深度网络实现精确估计。通过结合基于多任务、深度可分离卷积的网络(DS-SIDENet)与场景分类或粗粒度深度估计,该方法在NYU、ScanNet和KITTI数据集上达到最先进性能,并在2018年Robust Vision Challenge中排名第一。
Single image depth estimation (SIDE) plays a crucial role in 3D computer vision. In this paper, we propose a two-stage robust SIDE framework that can perform blind SIDE for both indoor and outdoor scenes. At the first stage, the scene understanding module will categorize the RGB image into different depth-ranges. We introduce two different scene understanding modules based on scene classification and coarse depth estimation respectively. At the second stage, SIDE networks trained by the images of specific depth-range are applied to obtain an accurate depth map. In order to improve the accuracy, we further design a multi-task encoding-decoding SIDE network DS-SIDENet based on depthwise separable convolutions. DS-SIDENet is optimized to minimize both depth classification and depth regression losses. This improves the accuracy compared to a single-task SIDE network. Experimental results demonstrate that training DS-SIDENet on an individual dataset such as NYU achieves competitive performance to the state-of-art methods with much better efficiency. Ours proposed robust SIDE framework also shows good performance for the ScanNet indoor images and KITTI outdoor images simultaneously. It achieves the top performance compared to the Robust Vision Challenge (ROB) 2018 submissions.
研究动机与目标
- 解决在NYU、ScanNet或KITTI等孤立数据集上训练的单图像深度估计(SIDE)模型缺乏泛化能力的问题。
- 克服深层CNN模型因使用大型主干网络和全连接层而效率低下、灵活性不足的问题,这些模型通常需要滑动窗口推理。
- 开发一种盲模式、领域无关的SIDE框架,能够在不预先知晓场景类型的情况下处理室内和室外场景。
- 通过设计一种基于深度可分离卷积的多任务全卷积网络,联合执行深度分类/回归,提升准确率与效率。
- 在多样化数据集上展示鲁棒性能,特别是在2018年Robust Vision Challenge中,该方法取得最高排名。
提出的方法
- 实施两阶段框架:首先,通过场景分类或粗粒度深度估计,利用场景理解模块将输入图像分类为低或高深度范围。
- 在训练数据中低深度范围和高深度范围子集上分别训练深度学习网络(DS-SIDENet),使其专门适应各自深度范围。
- 将DS-SIDENet设计为使用深度可分离卷积的编码-解码网络,以降低计算成本,同时保持特征分辨率。
- 通过联合损失函数训练DS-SIDENet,该损失函数结合了深度分类(像素级量化深度标签)和深度回归(连续深度图),实现两者的同步优化。
- 推理阶段仅使用深度分类输出以保持效率,同时利用联合训练提升特征判别能力。
- 在解码路径中引入空间聚合模块(SAM)和空洞卷积(SHG),以增强特征聚合,尤其在高深度范围场景中表现更优。
实验结果
研究问题
- RQ1是否可以通过结合场景理解的两阶段框架,提升单图像深度估计在多样化室内和室外数据集上的泛化能力?
- RQ2与单任务训练相比,联合执行深度分类与回归的多任务学习如何优化网络性能?
- RQ3在深度估计网络中,使用深度可分离卷积对模型效率与准确率有何影响?
- RQ4基于粗粒度深度估计的场景理解模块对深度阈值选择的敏感性如何?
- RQ5在盲模式SIDE场景中,基于场景分类的场景理解是否比粗粒度深度估计提供更好的真实世界泛化能力?
主要发现
- 所提出的两阶段鲁棒SIDE框架在2018年Robust Vision Challenge中所有参赛方法中排名第一,优于其他最先进方法。
- 使用场景分类进行场景理解相比粗粒度深度估计,展现出更优的真实世界泛化能力,后者对阈值选择敏感。
- DS-SIDENet模型在NYU-Depth-v2数据集上达到具有竞争力的性能,与最先进结果相当,但效率显著提升。
- 在第三个解码模块处添加SAM模块可提升KITTI验证集性能(iRMSE: 7.83,REL: 0.066),而在后续模块添加则无益处且降低效率。
- 当使用10m阈值时,使用KITTI和ScanNet混合数据微调低深度范围DS-SIDENet导致ScanNet准确率下降(RMSE: 0.366),证实了领域特定训练的重要性。
- 该方法在不同数据集上保持一致的性能表现:ScanNet测试集RMSE/REL为0.287/0.138,KITTI验证集iRMSE/REL为7.83/0.066(最佳配置下)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。