QUICK REVIEW

[论文解读] Robust Semi-Supervised Monocular Depth Estimation with Reprojected Distances

Vitor Guizilini, Jie Li|arXiv (Cornell University)|Oct 3, 2019

Advanced Vision and Imaging被引用 24

一句话总结

本文提出了一种新颖的半监督单目深度估计方法，通过结合自监督的光度损失与一种新型重投影距离损失，将稀疏LiDAR深度标签引入自监督学习框架。该方法仅使用4个LiDAR光束（每幅图像少于100个深度值）即实现了最先进性能，证明了极稀疏监督可有效锚定尺度，同时保持视频序列中的局部几何精度。

ABSTRACT

Dense depth estimation from a single image is a key problem in computer vision, with exciting applications in a multitude of robotic tasks. Initially viewed as a direct regression problem, requiring annotated labels as supervision at training time, in the past few years a substantial amount of work has been done in self-supervised depth training based on strong geometric cues, both from stereo cameras and more recently from monocular video sequences. In this paper we investigate how these two approaches (supervised & self-supervised) can be effectively combined, so that a depth model can learn to encode true scale from sparse supervision while achieving high fidelity local accuracy by leveraging geometric cues. To this end, we propose a novel supervised loss term that complements the widely used photometric loss, and show how it can be used to train robust semi-supervised monocular depth estimation models. Furthermore, we evaluate how much supervision is actually necessary to train accurate scale-aware monocular depth models, showing that with our proposed framework, very sparse LiDAR information, with as few as 4 beams (less than 100 valid depth values per image), is enough to achieve results competitive with the current state-of-the-art.

研究动机与目标

通过结合尺度监督与视频中的几何一致性，弥合监督式与自监督式深度估计之间的差距。
实现在极低分辨率LiDAR数据下实现精确的深度估计，降低对高光束数传感器的依赖。
通过引入一种基于重投影距离的新型可微损失，提升自监督单目深度模型的保真度与尺度准确性。
评估在真实场景中实现具有竞争力的深度估计性能所需的最小监督量。

提出的方法

提出一种新型监督损失项，最小化重投影深度预测与图像空间中真实LiDAR点之间的L2距离。
在联合优化框架中将该重投影距离损失与标准光度损失结合，实现半监督训练。
利用图像空间重投影，确保损失在与光度损失相同的几何约束下运作，从而实现端到端可微性。
应用光束稀疏化策略以模拟低分辨率LiDAR，包括偏移变化以评估对光束分布的敏感性。
在未标注的视频序列上端到端训练单目深度网络，利用自监督光度损失，同时通过新损失注入稀疏深度标签。
采用数据增强与随机训练策略，评估不同光束配置与稀疏度水平下的鲁棒性。

实验结果

研究问题

RQ1当仅使用少数LiDAR光束进行训练时，自监督单目深度模型能否实现高精度？
RQ2稀疏深度标签的空间分布如何影响模型性能与收敛性？
RQ3与标准自监督训练相比，所提出的重投影距离损失是否能提升尺度准确性与局部几何保真度？
RQ4实现具有竞争力的深度估计性能所需的LiDAR光束最小数量是多少？

主要发现

仅使用4个LiDAR光束（每幅图像有效深度值少于100个），模型在KITTI数据集上实现了具有竞争力的性能，绝对相对误差（abs_rel）为0.101 ± 0.007。
模型在不同光束分布下均保持稳健性能，即使在极端稀疏条件下也未出现灾难性失败，但仅使用1或2个光束时收敛性变得不稳定。
重投影距离损失显著提升了尺度准确性与局部细节保真度，在结合稀疏标签时优于标准自监督基线模型。
性能随光束数量减少而渐进退化：在10个光束时，abs_rel上升至0.249 ± 0.031；在1个光束时出现收敛问题，表明存在可靠的监督实用下限。
在10个光束时，δ<1.25准确率达到0.886 ± 0.013；在完整64光束监督下，准确率提升至0.932 ± 0.002，表明模型在不同稀疏水平下均具备强大泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。