Skip to main content
QUICK REVIEW

[論文レビュー] AnyDepth: Depth Estimation Made Easy

Zeyu Ren, Zeyu Zhang|arXiv (Cornell University)|Jan 6, 2026
Advanced Vision and Imaging被引用数 0
ひとこと要約

AnyDepthは、SDTデコーダとデータ中心のフィルタリングを採用した軽量なデータ中心フレームワークで、DPTより少ないパラメータと学習コストで高い精度を実現し、複数のベンチマークで競争力を示します。

ABSTRACT

Monocular depth estimation aims to recover the depth information of 3D scenes from 2D images. Recent work has made significant progress, but its reliance on large-scale datasets and complex decoders has limited its efficiency and generalization ability. In this paper, we propose a lightweight and data-centric framework for zero-shot monocular depth estimation. We first adopt DINOv3 as the visual encoder to obtain high-quality dense features. Secondly, to address the inherent drawbacks of the complex structure of the DPT, we design the Simple Depth Transformer (SDT), a compact transformer-based decoder. Compared to the DPT, it uses a single-path feature fusion and upsampling process to reduce the computational overhead of cross-scale feature fusion, achieving higher accuracy while reducing the number of parameters by approximately 85%-89%. Furthermore, we propose a quality-based filtering strategy to filter out harmful samples, thereby reducing dataset size while improving overall training quality. Extensive experiments on five benchmarks demonstrate that our framework surpasses the DPT in accuracy. This work highlights the importance of balancing model design and data quality for achieving efficient and generalizable zero-shot depth estimation. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.

研究の動機と目的

  • ゼロショット単眼深度推定のモデルトレーニングとデータの複雑さを削減する動機付け。
  • マルチブランチのクロススケール融合を置換する軽量デコーダ(SDT)の提案。
  • トレーニングデータの効率性を改善する品質ベースのデータフィルタリング戦略の導入。
  • AnyDepthがパラメータとFLOPsを大幅に抑えつつ競争力のある精度を達成することを示す。

提案手法

  • frozen DINOv3エンコーダを用いて4層のTransformerからマルチスケールトークンを抽出する。
  • Simple Depth Transformer(SDT)を導入:単一路線の統合とトークン統合の1ショット再構成、トークン融合のための1つの線形射影。
  • 学習可能な層ごとの重みでマルチレイヤートークンを融合し、空間特徴マップへマッピング。
  • Spatial Detail Enhancer(SDE)を適用して質感ディテールと局所構造を精錬。
  • DySampleによる学習可能な動的サンプラーを用いた逐次的な2段階アップサンプリングで、解像度を向上。
  • SSIと勾配整合性損失で訓練し、データ中心のフィルタリングで低品質サンプルを除去。

実験結果

リサーチクエスチョン

  • RQ1SDTデコーダは、DPTと比較してゼロショット単眼深度推定性能で競争力を持てるか?
  • RQ2データ中心のフィルタリングは、データ量を削減してトレーニング品質とモデル性能を改善できるか?
  • RQ3高解像度入力でSDTとDINOv3バックボーンを用いた場合のパラメータ数、FLOPs、遅延の効率化はどの程度か?
  • RQ4AnyDepthは大規模監視データを用いずに、室内外のゼロショット深度ベンチマークでどの程度の性能を示すか?

主な発見

  • SDTはDPTと比較して約85%-89%のパラメータ削減を実現しつつ、ゼロショット深度推定でより高い精度を達成する。
  • 品質基盤のデータフィルタリング戦略によりトレーニングデータサイズを削減し、全体的なモデル性能を向上させる。
  • AnyDepthはSDTを用いることでNYUv2、KITTI、ETH3D、ScanNet、DIODEのゼロショット設定でDPTに競合する精度を達成し、FLOPsを抑え、推論は同程度かそれより速い。
  • DySampleによる逐次アップサンプリングはビリニア補間より高周波ディテールを良好に保持し、エッジの明瞭さと深度境界を改善。
  • 効率性分析により、モデルサイズと入力解像度全般でパラメータとFLOPsの大幅な削減が観測され、推論速度の改善または正の影響が見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。