Skip to main content
QUICK REVIEW

[论文解读] DEFOM-Stereo: Depth Foundation Model Based Stereo Matching

Hualie Jiang, Zhiqiang Lou|ArXiv.org|Jan 16, 2025
Satellite Image Processing and Photogrammetry被引用 3
一句话总结

DEFOM-Stereo 将单目深度基础模型线索整合到循环立体框架以提高鲁棒性和零-shot泛化,在多个基准测试上达到最先进的结果。

ABSTRACT

Stereo matching is a key technique for metric depth estimation in computer vision and robotics. Real-world challenges like occlusion and non-texture hinder accurate disparity estimation from binocular matching cues. Recently, monocular relative depth estimation has shown remarkable generalization using vision foundation models. Thus, to facilitate robust stereo matching with monocular depth cues, we incorporate a robust monocular relative depth model into the recurrent stereo-matching framework, building a new framework for depth foundation model-based stereo-matching, DEFOM-Stereo. In the feature extraction stage, we construct the combined context and matching feature encoder by integrating features from conventional CNNs and DEFOM. In the update stage, we use the depth predicted by DEFOM to initialize the recurrent disparity and introduce a scale update module to refine the disparity at the correct scale. DEFOM-Stereo is verified to have much stronger zero-shot generalization compared with SOTA methods. Moreover, DEFOM-Stereo achieves top performance on the KITTI 2012, KITTI 2015, Middlebury, and ETH3D benchmarks, ranking $1^{st}$ on many metrics. In the joint evaluation under the robust vision challenge, our model simultaneously outperforms previous models on the individual benchmarks, further demonstrating its outstanding capabilities.

研究动机与目标

  • 利用来自深度基础模型的单目深度线索提升在鲁棒性方面的立体匹配(遮挡、低纹理、反射区域)表现。
  • 开发结合卷积神经网络特征与 DEFOM 表达的特征/上下文编码器,以改进视差估计。
  • 引入尺度感知初始化和循环尺度更新机制,以解决深度-视差尺度模糊问题。
  • 在多样数据集和基准上评估零-shot 泛化与真实世界性能。
  • 在保持同领域竞争力的同时,在多个排行榜上实现最先进或接近最先进的结果。

提出的方法

  • 将 Depth Anything V2 作为深度基础模型(DEFOM)以增强特征提取,通过形成结合的 CNN 与 DEFOM 基于的特征和上下文编码器。
  • 构建两路编码器特征流程:匹配特征编码器(1/4 分辨率)和多尺度上下文编码器(1/4、1/8、1/16)配合 DEFOM 派生特征以及一个可训练的 DPT 头用于灵活融合。
  • 构建全配对相关金字塔并采用尺度感知相关查找,以实现超越标准金字塔极限的全局尺度搜索。
  • 插入尺度更新(SU)模块,通过在最细的相关体积上进行尺度查找,反复扩展 disparity 图以实现一致的视差密度恢复。
  • 用 DEFOM 派生深度图通过尺度归一化变换初始化视差,并在类似 RAFT-Stereo 的循环框架中通过 delta 更新(DU)阶段对其进行 refined。
  • 通过对多次迭代应用指数加权损失来监督逐步精细化的视差。

实验结果

研究问题

  • RQ1单目深度来自深度基础模型的线索是否能提升视差估计在挑战性区域(遮挡、低纹理、反射表面)中的鲁棒性?
  • RQ2将 DEFOM 特征同时整合到特征编码器和上下文编码器是否能提升零-shot 泛化与跨域性能?
  • RQ3所提出的尺度更新机制在解决深度-视差尺度模糊、实现像素级视差恢复方面有多有效?

主要发现

  • DEFOM-Stereo 在 Scene Flow 的域内表现与最先进方法相当,同时显著提升在 KITTI 2012/2015、Middlebury 和 ETH3D 的零-shot 泛化能力。
  • 在官方基准上,DEFOM-Stereo 在撰写时段的 KITTI 2012、KITTI 2015、Middlebury 和 ETH3D 的多项指标上名列第一。
  • 消融研究显示结合编码器(CCE/CFE)显著提升 Scene Flow 的表现;深度初始化和尺度更新组件提升零-shot 泛化与高分辨率结果。
  • 带尺度查找的尺度更新显著提升跨数据集的表现,并在某些错误率(如 Middlebury 的 Bad 2.0)上带来显著改进。
  • 更大规模的 DEFOM 支撑的 ViT backbone(ViT-L)进一步提升性能,但推理时间相对于收益有小幅增加。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。