[论文解读] Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation
tldr: Marigold 在预训练的 Stable Diffusion 潜在扩散模型上进行微调,以实现仿射不变的单目深度估计,在使用合成训练数据的情况下实现零样本泛化,并在多个真实数据集上使用合成训练数据取得了最先进的结果。
Monocular depth estimation is a fundamental computer vision task. Recovering 3D depth from a single image is geometrically ill-posed and requires scene understanding, so it is not surprising that the rise of deep learning has led to a breakthrough. The impressive progress of monocular depth estimators has mirrored the growth in model capacity, from relatively modest CNNs to large Transformer architectures. Still, monocular depth estimators tend to struggle when presented with images with unfamiliar content and layout, since their knowledge of the visual world is restricted by the data seen during training, and challenged by zero-shot generalization to new domains. This motivates us to explore whether the extensive priors captured in recent generative diffusion models can enable better, more generalizable depth estimation. We introduce Marigold, a method for affine-invariant monocular depth estimation that is derived from Stable Diffusion and retains its rich prior knowledge. The estimator can be fine-tuned in a couple of days on a single GPU using only synthetic training data. It delivers state-of-the-art performance across a wide range of datasets, including over 20% performance gains in specific cases. Project page: https://marigoldmonodepth.github.io.
研究动机与目标
- 通过利用扩散模型中的丰富先验来提升单目深度估计的泛化能力。
- 开发一种资源高效的微调协议,将预训练图像生成器改造用于深度估计。
- 实现仿射不变的深度估计,在训练阶段无需真实深度数据即可推广到未见过的真实数据集。
提出的方法
- 使用基于 Stable Diffusion 的潜在扩散模型(LDM),仅微调去噪U-Net。
- 将输入的RGB图像和深度编码到VAE潜在空间,并将去噪器条件化在拼接的潜在码上。
- 使用带有仿Affine不变深度归一化的合成RGB-D数据以及潜在空间中的标准扩散目标进行训练。
- 应用带有DDIM样式采样的增强推理方案,并在测试时对多次随机前向进行集成。
- 在训练中使用多分辨率退火噪声以改善收敛性和泛化能力。

实验结果
研究问题
- RQ1能否将预训练扩散模型丰富的视觉先验重新用于从单幅图像估计深度,以实现广义可推广性?
- RQ2如何高效地微调扩散模型(使用合成数据)以生成仿射不变的深度图?
- RQ3条件化、归一化和推理策略对对未知真实数据集的零样本泛化有何影响?
主要发现
- Marigold 在多个人真实数据集上实现了最先进的仿射不变深度估计,而在训练过程中从未看到真实深度图。
- 使用所提出的协议在合成数据集(Hypersim 和 Virtual KITTI)上进行训练,能对室内外场景实现强大的零样本迁移。
- 采用带退火的多分辨率噪声和测试时集成可提升深度精度和鲁棒性。
- 单次预测已表现良好;对10–20次运行进行集成可进一步降低 AbsRel 并提高 δ1 精度。
- 该方法在消费级GPU上仅需少量GPU天,在RTX 4090上约2.5天即可收敛。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。