QUICK REVIEW

[论文解读] R4Dyn: Exploring Radar for Self-Supervised Monocular Depth Estimation of Dynamic Scenes

Stefano Gasperini|arXiv (Cornell University)|Aug 10, 2021

Advanced Optical Sensing Technologies参考文献 34被引用 31

一句话总结

R4Dyn 提出了一种新颖的自监督单目深度估计框架，该框架在训练期间利用低成本车载雷达作为弱监督信号，并在推理时可选地将雷达作为输入，以提升对动态物体的深度估计性能。通过过滤和扩展稀疏雷达检测，该方法在 nuScenes 数据集上将移动车辆的误差降低了 37%，显著优于 Monodepth2 等基线自监督模型在动态场景下的表现。

ABSTRACT

While self-supervised monocular depth estimation in driving scenarios has achieved comparable performance to supervised approaches, violations of the static world assumption can still lead to erroneous depth predictions of traffic participants, posing a potential safety issue. In this paper, we present R4Dyn, a novel set of techniques to use cost-efficient radar data on top of a self-supervised depth estimation framework. In particular, we show how radar can be used during training as weak supervision signal, as well as an extra input to enhance the estimation robustness at inference time. Since automotive radars are readily available, this allows to collect training data from a variety of existing vehicles. Moreover, by filtering and expanding the signal to make it compatible with learning-based approaches, we address radar inherent issues, such as noise and sparsity. With R4Dyn we are able to overcome a major limitation of self-supervised depth estimation, i.e. the prediction of traffic participants. We substantially improve the estimation on dynamic objects, such as cars by 37% on the challenging nuScenes dataset, hence demonstrating that radar is a valuable additional sensor for monocular depth estimation in autonomous vehicles.

研究动机与目标

解决自监督单目深度估计在动态交通参与者上失效的问题，原因在于违反了静态世界假设。
通过利用广泛可用的车载雷达数据，而非依赖 LiDAR 监督数据，实现在现有车辆上进行训练。
提升对关键安全动态物体（如对向车辆和行人）的深度估计鲁棒性与准确性。
开发一种方法，将雷达同时用作训练期间的弱监督信号和推理时的输入模态，从而在不增加模型复杂度的前提下提升性能。

提出的方法

提出一种新颖的弱雷达损失，利用过滤和扩展后的雷达检测作为训练期间的监督信号，提升对动态物体的深度估计性能。
引入一个信号处理流程，通过二维边界框过滤原始雷达检测，并在空间上扩展以生成与深度学习模型兼容的密集可学习雷达特征。
通过多流编码器和早期融合，扩展自监督深度估计框架（如 Monodepth2），在推理时实现极稀疏的深度补全。
采用多任务学习设置，结合光度损失、弱速度损失和弱雷达损失，联合优化深度和位姿估计。
应用数据增强和域自适应技术，确保在不同数据集之间的泛化能力，包括从 nuScenes 到 KITTI 的迁移。
对 LiDAR 数据进行下采样以模拟雷达的稀疏性和噪声，从而在 KITTI 上无需微调即可开展迁移学习实验。

实验结果

研究问题

RQ1雷达数据能否被有效用作弱监督信号，以提升自监督单目深度估计在动态物体上的性能？
RQ2如何对稀疏且噪声较多的车载雷达数据进行预处理，使其与基于深度学习的深度估计网络兼容？
RQ3在训练和推理阶段同时集成雷达是否能提升对关键安全动态物体（如对向车辆和行人）的深度估计准确性？
RQ4所提方法能否泛化到不同数据集和真实世界场景，包括无 LiDAR 的场景？

主要发现

在 nuScenes 数据集上，R4Dyn 相较于 Monodepth2 将动态物体（车辆）的深度估计误差降低了 37%，显著提升了对移动交通参与者处理能力。
该方法在 'Vehicles' 类上达到 77.86% 的 mIoU，在 'Non-Parked Vehicles' 类上达到 80.86%，在类别级评估中优于所有基线方法。
在 KITTI 数据集上，R4Dyn 在无需微调的情况下表现出良好泛化能力，相对误差较 Monodepth2 改善 11.5%，尽管存在较大的域差距。
仅使用弱雷达损失（R4Dyn-L）时，车辆的 AbsRel 误差相比基线降低 30.5%，表明雷达作为监督信号本身即具有显著价值，即使不进行输入融合。
R4Dyn-LI（同时使用雷达监督和输入融合）表现最佳，在车辆上的 AbsRel 为 0.1551，在物体上的 AbsRel 为 0.2222，优于 LiDAR 监督的先前工作在物体类别上的表现。
定性结果表明，R4Dyn 能够正确估计对向车辆的深度，而 Monodepth2 严重低估其距离，凸显该方法在关键安全场景下的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。