[論文レビュー] Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
Depth Pro はゼロショットのメトリック単眼深度モデルで、V100 GPU 上で0.3秒に絶対スケールを持つ高解像度・シャープなメトリック深度マップを出力し、マルチスケール ViT ベースのアーキテクチャと現実データと合成データを組み合わせた訓練カリキュラムを採用します。
We present a foundation model for zero-shot metric monocular depth estimation. Our model, Depth Pro, synthesizes high-resolution depth maps with unparalleled sharpness and high-frequency details. The predictions are metric, with absolute scale, without relying on the availability of metadata such as camera intrinsics. And the model is fast, producing a 2.25-megapixel depth map in 0.3 seconds on a standard GPU. These characteristics are enabled by a number of technical contributions, including an efficient multi-scale vision transformer for dense prediction, a training protocol that combines real and synthetic datasets to achieve high metric accuracy alongside fine boundary tracing, dedicated evaluation metrics for boundary accuracy in estimated depth maps, and state-of-the-art focal length estimation from a single image. Extensive experiments analyze specific design choices and demonstrate that Depth Pro outperforms prior work along multiple dimensions. We release code and weights at https://github.com/apple/ml-depth-pro
研究の動機と目的
- カメラ内部パラメータなしで絶対スケールの深度を出力するゼロショットのメトリック単眼深度推定器を開発する。
- 髪毛・毛皮・植生のような微細構造を含む高解像度・境界精度の深度マップを達成する。
- 対話的なビュー合成や関連アプリケーションを可能にする低遅延を維持する。
- EXIF データなしで堅牢なメトリック深度を提供するため、単一画像から焦点距離を推定する。
- マッティング/セグメンテーションデータセットを用いた深度境界忠実性の評価指標を導入する。
提案手法
- 固定高解像度(1536x1536)でパッチを複数スケールで処理し、DPT風デコーダと組み合わせるViTベースの素のアーキテクチャを適用する。
- 入力画像 I から標準的な逆深度 C を予測し、Dm = f_px / (w C) によってメトリック深度を計算する。ここで f_px は焦点距離、w は画像幅。
- 現実データと合成データを混合した二段階カリキュラムで訓練し、境界のシャープさと画素単位の精度を両立する(Stage 1: ロバストなクロスドメイン特徴; Stage 2: 高品質な合成真値を用いて境界をシャープ化)。
- マルチスケール微分損失(MAGE, MALE, MSGE)を導入し、スケールを超えて境界と微細ディテールを強制的に鋭くする。
- 中間特徴量からのゼロショット焦点距離推定と、別個に訓練された焦点距離ヘッドを組み合わせて水平視野角を予測する。
- マッティング/セグメンテーション注釈を活用して、遮蔽輪郭と境界リコールを定量化する境界重視の評価指標を開発する。
実験結果
リサーチクエスチョン
- RQ1カメラ内部パラメータなしで絶対スケールの深度を出力するゼロショットのメトリック単眼深度推定モデルは実現できるか?
- RQ2マルチスケールViTベースのアーキテクチャは高解像度で境界を鋭く保ちつつ、実行速度を維持できるか?
- RQ3現実データと合成データを混合した訓練と、境界重視の専用損失を組み合わせることで深度マップの境界忠実性は向上するか?
- RQ4ゼロショット設定で単一画像から焦点距離を高精度に推定できるか?
- RQ5新しい境界認識評価指標は、ビュー合成や編集タスクにおける実用的な改善と相関があるか?
主な発見
| 手法 | Booster | ETH3D | Middlebury | NuScenes | Sintel | Sun-RGBD | Avg. Rank |
|---|---|---|---|---|---|---|---|
| DepthAnything (Yang et al., 2024a) | 52.3 | 9.3 | 39.3 | 35.4 | 6.9 | 85.0 | 5.7 |
| DepthAnything v2 (Yang et al., 2024b) | 59.5 | 36.3 | 37.2 | 17.7 | 5.9 | 72.4 | 5.8 |
| Metric3D (Yin et al., 2023) | 4.7 | 34.2 | 13.6 | 64.4 | 17.3 | 16.9 | 5.8 |
| Metric3D v2 (Hu et al., 2024) | 39.4 | 87.7 | 29.9 | 82.6 | 38.3 | 75.6 | 3.7 |
| PatchFusion (Li et al., 2024a) | 22.6 | 51.8 | 49.9 | 20.4 | 14.0 | 53.6 | 5.2 |
| UniDepth (Piccinelli et al., 2024) | 27.6 | 25.3 | 31.9 | 83.6 | 16.5 | 95.8 | 4.2 |
| ZeroDepth (Guizilini et al., 2023) | OOM | OOM | 46.5 | 64.3 | 12.9 | OOM | 4.6 |
| ZoeDepth (Bhat et al., 2023) | 21.6 | 34.2 | 53.8 | 28.1 | 7.8 | 85.7 | 5.3 |
| Depth Pro (Ours) | 46.6 | 41.5 | 60.5 | 49.1 | 40.0 | 89.0 | 2.5 |
- Depth Pro は0.3sで2.25メガピクセルの深度マップをV100 GPU上で作成し、カメラ内部パラメータなしの絶対メトリック深度を提供する。
- Depth Pro は境界精度が優れており、複数データセットにおける境界リコールで従来手法を乗法的に上回る。
- ゼロショットのメトリック深度では、Depth Pro は Booster, ETH3D, Middlebury, NuScenes, Sintel, Sun-RGBD のデータセットで平均的に最高位を記録する。
- Depth Pro は拡散ベースの Marigold およびパッチベースの PatchFusion ベースラインよりもはるかに速く、境界が鋭い。
- Depth Pro は単一画像からの焦点距離推定が、キュレーションされたゼロショットデータセット上で従来の焦点距離予測器よりも大幅に優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。