QUICK REVIEW

[論文レビュー] DEFOM-Stereo: Depth Foundation Model Based Stereo Matching

Hualie Jiang, Zhiqiang Lou|ArXiv.org|Jan 16, 2025

Satellite Image Processing and Photogrammetry被引用数 3

ひとこと要約

DEFOM-Stereoは monocular depth foundation model の手がかりを RAFT-Stereo と統合してステレオマッチングを強化し、ゼロショット一般化を高め、KITTI・Middlebury・ETH3D のベンチマークでトップランキングを獲得。

ABSTRACT

Stereo matching is a key technique for metric depth estimation in computer vision and robotics. Real-world challenges like occlusion and non-texture hinder accurate disparity estimation from binocular matching cues. Recently, monocular relative depth estimation has shown remarkable generalization using vision foundation models. Thus, to facilitate robust stereo matching with monocular depth cues, we incorporate a robust monocular relative depth model into the recurrent stereo-matching framework, building a new framework for depth foundation model-based stereo-matching, DEFOM-Stereo. In the feature extraction stage, we construct the combined context and matching feature encoder by integrating features from conventional CNNs and DEFOM. In the update stage, we use the depth predicted by DEFOM to initialize the recurrent disparity and introduce a scale update module to refine the disparity at the correct scale. DEFOM-Stereo is verified to have much stronger zero-shot generalization compared with SOTA methods. Moreover, DEFOM-Stereo achieves top performance on the KITTI 2012, KITTI 2015, Middlebury, and ETH3D benchmarks, ranking $1^{st}$ on many metrics. In the joint evaluation under the robust vision challenge, our model simultaneously outperforms previous models on the individual benchmarks, further demonstrating its outstanding capabilities.

研究の動機と目的

難易度の高い条件（遮蔽・低テクスチャ・反射領域）におけるステレオマッチングの堅牢性を高めるため、深度基盤モデルからの monocular depth cue を活用する。
DEFOM 表現を取り入れた従来のCNN特徴と融合した特徴/文脈エンコーダを組み合わせ、視差推定を改善する。
スケール認識を伴う初期化と再帰的なスケール更新機構を導入し、深度と視差のスケールの曖昧さを解消する。
多様なデータセットとベンチマークでゼロ-shot一般化と実世界性能を評価する。
競争力のあるドメイン内性能を維持しつつ、複数のリーダーボードで最先端またはそれに準ずる結果を達成する。

提案手法

Depth Anything V2 を深度基盤モデル（DEFOM）として用い、DEFOM由来の特徴と柔軟な融合を実現する特徴/文脈エンコーダを形成する。
マッチング特徴エンコーダ（解像度1/4）と複数スケールの文脈エンコーダ（1/4、1/8、1/16）をDEFOM由来の特徴と訓練可能な DPT ヘッドで組み合わせる2重エンコーダ特徴パイプラインを構築する。
全ペア相関ピラミッドを構築し、標準的なピラミッド限界を超えるグローバルスケール探索を可能にするスケール認識相関ルックアップを採用する。
最も細かな相関ボリューム上のスケールルックアップを用いてディスパリティマップを高密度にスケーリングし、一貫した視差を回復するSUモジュールを再帰的に挿入する。
DEFOM由来の深度マップをスケール正規化変換を介して視差として初期化し、RAFT-Stereo風の再帰的フレームワーク内のデルタ更新（DU）ステージで精緻化する。
複数回の反復にわたる指数関数的加重損失で訓練し、段階的に精練された視差を監督する。

実験結果

リサーチクエスチョン

RQ1深度基盤モデルからの monocular depth cues は、遮蔽・低テクスチャ・反射面といった難しい領域でステレオ視差推定と堅牢性を改善できるか。
RQ2DEFOM特徴を特徴エンコーダと文脈エンコーダの両方へ統合することは、実世界データセットでのゼロショット一般化とドメイン横断性能を改善するか。
RQ3提案されたスケール更新機構は、視差復元のための深度と視差のスケールの曖昧さを解消する上でどれくらい効果的か。

主な発見

DEFOM-Stereoは Scene Flow におけるインドメイン性能をSOTA法と同等程度に保ちつつ、KITTI 2012/2015、Middlebury、ETH3D のゼロショット一般化を著しく向上させる。
公式ベンチマークでは、DEFOM-Stereo が執筆時点で KITTI 2012、KITTI 2015、Middlebury、ETH3D のリーダーボードの多くの指標で1位にランクしている。
アブレーション研究により、組み合わせエンコーダ（CCE/CFE）は Scene Flow の性能を大幅に向上させ、深度初期化とスケール更新コンポーネントはゼロショット一般化と高解像度の結果を高める。
スケールルックアップを伴うスケール更新は、クロスデータセット性能を大幅に改善し、Middlebury での Bad 2.0 などの特定の誤差率を顕著に低減する。
より大きな DEFOM 搭載 ViT バックボーン（ViT-L）は性能をさらに向上させる一方、推論時間は利得に対して控えめに増加する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。