QUICK REVIEW

[논문 리뷰] DEFOM-Stereo: Depth Foundation Model Based Stereo Matching

Hualie Jiang, Zhiqiang Lou|ArXiv.org|2025. 01. 16.

Satellite Image Processing and Photogrammetry인용 수 3

한 줄 요약

DEFOM-Stereo는 단안 깊이 기초 모델을 재발생(stereo) 프레임워크에 통합하여 강건성 및 제로샷 일반화를 향상시키고, 여러 벤치마크에서 최첨단 성과를 달성합니다.

ABSTRACT

Stereo matching is a key technique for metric depth estimation in computer vision and robotics. Real-world challenges like occlusion and non-texture hinder accurate disparity estimation from binocular matching cues. Recently, monocular relative depth estimation has shown remarkable generalization using vision foundation models. Thus, to facilitate robust stereo matching with monocular depth cues, we incorporate a robust monocular relative depth model into the recurrent stereo-matching framework, building a new framework for depth foundation model-based stereo-matching, DEFOM-Stereo. In the feature extraction stage, we construct the combined context and matching feature encoder by integrating features from conventional CNNs and DEFOM. In the update stage, we use the depth predicted by DEFOM to initialize the recurrent disparity and introduce a scale update module to refine the disparity at the correct scale. DEFOM-Stereo is verified to have much stronger zero-shot generalization compared with SOTA methods. Moreover, DEFOM-Stereo achieves top performance on the KITTI 2012, KITTI 2015, Middlebury, and ETH3D benchmarks, ranking $1^{st}$ on many metrics. In the joint evaluation under the robust vision challenge, our model simultaneously outperforms previous models on the individual benchmarks, further demonstrating its outstanding capabilities.

연구 동기 및 목표

깊이 기초 모델의 단안 깊이 신호를 활용하여 어려운 조건(가려짐, 비텍스처 영역, 반사 영역)에서 스테레로 매칭의 강건성을 높인다.
DEFOM 표현으로 일반 CNN 특징과 결합된 특징/맥락 인코더를 개발하여 시차 추정 성능을 향상시킨다.
스케일 인식 초기화 및 재발생 스케일 업데이트 메커니즘을 도입하여 깊이-시차 스케일 모호성을 해소한다.
다양한 데이터셋과 벤치마크에서 제로샷 일반화 및 실제 성능을 평가한다.
다수의 리더보드에서 최첨단 혹은 근접 최첨차 성능을 달성하는 동시에 도메인 내에서도 경쟁력 있는 성능을 보인다.

제안 방법

깊이 기초 모델(DEFOM)로 Depth Anything V2를 활용하여 특징 추출을 보강하고 CNN 및 DEFOM 기반 특징/맥락 인코더를 형성한다.
일치 특징 인코더(해상도 1/4)와 DEFOM 파생 특징 및 학습 가능한 DPT 헤드를 갖춘 다중 스케일 맥락 인코더(1/4, 1/8, 1/16)로 구성된 이중 인코더 특징 파이프라인을 구성한다.
전역 규모 검색을 가능하게 하는 모든-쌍 상관 피라미드를 구축하고 표준 피라미드 한계를 넘어서는 스케일 인식 상관 조회를 활용한다.
가장 미세한 상관 부피에서 스케일 조회를 사용하여 시차 맵을 촘촘하게 스케일링하는 스케일 업데이트(SU) 모듈을 도입하여 일관된 시차를 재발견한다.
DEFOM 파생 깊이 맵을 스케일 정규화 변환으로 초기화하고, RAFT-Stereo와 유사한 재발 프레임워크에서 델타 업데이트(DU) 스테이지를 통해 이를 정제한다.
다수의 반복에 걸친 지수 가중 손실로 학습하여 점진적으로 정제된 시차를 감독한다.

실험 결과

연구 질문

RQ1깊이 기초 모델의 단안 깊이 신호가 어려운 영역(가려짐, 낮은 텍스처, 반사 면)에서 스테레오 시차 추정 및 강건성을 개선할 수 있는가?
RQ2DEFOM 특징을 특징 인코더와 맥락 인코더 모두에 통합하는 것이 제로샷 일반화 및 실제 데이터셋에서의 교차 도메인 성능을 개선하는가?
RQ3제안된 스케일 업데이트 메커니즘이 깊이-시차 스케일 모호성을 해결하여 픽셀 단위의 시차 재구성에 얼마나 효과적인가?

주요 결과

DEFOM-Stereo는 Scene Flow에서 SOTA 방법들과 대등한 도메인 내 성능을 달성하는 한편 KITTI 2012/2015, Middlebury, ETH3D에서 제로샷 일반화를 현저히 개선한다.
공식 벤치마크에서 DEFOM-Stereo는 작성 시점의 KITTI 2012, KITTI 2015, Middlebury, ETH3D 리더보드에서 여러 지표에 걸쳐 1위를 차지한다.
계통적 분석(ablation)에서 결합 인코더(CCE/CFE)가 Scene Flow 성능을 크게 향상시키며, 깊이 초기화 및 스케일 업데이트 구성 요소가 제로샷 일반화 및 고해상도 결과를 강화한다.
스케일 업데이트와 스케일 조회의 도입으로 교차 데이터셋 성능이 크게 향상되고 일부 오류율(예: Middlebury에서 Bad 2.0)을 현저히 감소시킨다.
더 큰 DEFOM 기반 ViT 백본(ViT-L)이 성능을 추가로 향상시키고, 추론 시간은 이익에 비해 약간 증가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.