[论文解读] RoboDepth: Robust Out-of-Distribution Depth Estimation under Corruptions
本文提出了 RoboDepth,这是一项涵盖三大类18 种失真类别的鲁棒性基准,基于 indoor/outdoor 数据对 42 种单目深度估计模型进行基准测试,并分析影响 OoD 深度估计鲁棒性的因素。它还提供了构建更鲁棒的 MDE 系统的见解和建议。
Depth estimation from monocular images is pivotal for real-world visual perception systems. While current learning-based depth estimation models train and test on meticulously curated data, they often overlook out-of-distribution (OoD) situations. Yet, in practical settings -- especially safety-critical ones like autonomous driving -- common corruptions can arise. Addressing this oversight, we introduce a comprehensive robustness test suite, RoboDepth, encompassing 18 corruptions spanning three categories: i) weather and lighting conditions; ii) sensor failures and movement; and iii) data processing anomalies. We subsequently benchmark 42 depth estimation models across indoor and outdoor scenes to assess their resilience to these corruptions. Our findings underscore that, in the absence of a dedicated robustness evaluation framework, many leading depth estimation models may be susceptible to typical corruptions. We delve into design considerations for crafting more robust depth estimation models, touching upon pre-training, augmentation, modality, model capacity, and learning paradigms. We anticipate our benchmark will establish a foundational platform for advancing robust OoD depth estimation.
研究动机与目标
- 在真实世界的失真下,推动对单目深度估计(MDE)的鲁棒性评估的必要性。
- 定义并发布一个全面的 OoD 鲁棒性基准,用于 MDE,包括室内和室外数据集。
- 系统性地评估广泛的前沿 MDE 模型在多样化失真下的表现。
- 分析输入、训练范式和模型设计选择如何影响鲁棒性。
- 提供设计考虑与指南,以提升 MDE 系统的鲁棒性和可靠性。
提出的方法
- 引入 RoboDepth,一套用于 MDE 的 OoD 鲁棒性评估套件,涵盖 Weather/Lighting、Sensor/Movement、Data Processing 三大类别的 18 种失真。
- 创建三个基准数据集:KITTI-C(室外)、NYUDepth2-C(室内)、KITTI-S(风格/移位)。
- 定义鲁棒性度量:Corruption Error (mCE) 与 Resilience Rate (mRR),以及一个深度估计误差(DEE)度量。
- 对 42 种深度估计模型(室外与室内)在 KITTI 或 NYU-Depth2 上进行基准测试,使用统一评估协议。
- 开源失真仿真工具包,以实现复现和扩展。

实验结果
研究问题
- RQ1当前的 MDE 模型在真实世界失真下是否鲁棒?
- RQ2哪些输入模态(单目、立体,或两者)具有更高的鲁棒性?
- RQ3学习范式(监督 vs 自监督)如何影响对失真的鲁棒性?
- RQ4哪些模型设计选择(预训练、输入分辨率、容量)会影响 OoD 深度估计的鲁棒性?
- RQ5模拟的失真是否足够现实,能够反映真实世界场景?
主要发现
- 最先进的 MDE 模型对失真表现出脆弱性,鲁棒性随架构和失真类型而异。
- 单目 MDE 模型在失真下通常比基于立体的模型更鲁棒。
- 自监督 MDE 模型在光照变化和运动模糊方面的敏感性可能低于监督模型,但两者都会受到噪声影响。
- 更高的输入分辨率可以提高对噪声的鲁棒性;更大模型并不总是提升鲁棒性,甚至可能有负效应。
- 基于 Transformers 的模型(如 MonoViT、Lite-Mono)在纹理偏移和边缘失真方面通常表现出更强的鲁棒性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。