QUICK REVIEW

[論文レビュー] Depth Anything V2

Lihe Yang, Bingyi Kang|arXiv (Cornell University)|Jun 13, 2024

Advanced Vision and Imaging被引用数 9

ひとこと要約

Depth Anything V2は、正確な合成ラベルで訓練し、その後教師-学生フレームワークを介して大規模な疑似ラベル付き実画像を活用することで、精緻で頑健な深度予測と多様な評価ベンチマーク（DA-2K）を実現する堅牢な単眼深度推定モデルを構築します。

ABSTRACT

This work presents Depth Anything V2. Without pursuing fancy techniques, we aim to reveal crucial findings to pave the way towards building a powerful monocular depth estimation model. Notably, compared with V1, this version produces much finer and more robust depth predictions through three key practices: 1) replacing all labeled real images with synthetic images, 2) scaling up the capacity of our teacher model, and 3) teaching student models via the bridge of large-scale pseudo-labeled real images. Compared with the latest models built on Stable Diffusion, our models are significantly more efficient (more than 10x faster) and more accurate. We offer models of different scales (ranging from 25M to 1.3B params) to support extensive scenarios. Benefiting from their strong generalization capability, we fine-tune them with metric depth labels to obtain our metric depth models. In addition to our models, considering the limited diversity and frequent noise in current test sets, we construct a versatile evaluation benchmark with precise annotations and diverse scenes to facilitate future research.

研究の動機と目的

実世界のラベル付き画像を合成深度ラベルに置換して、精度と細部を向上させる。
教師モデルを拡大し、その予測を使って学生モデルを指導する。
大規模な疑似ラベル付き実画像を用いて合成-実世界間のギャップを埋め、一般化性能を向上させる。
モデルの多様性を提供（25M から 1.3B パラメータ）し、下流タスクへのファインチューニングを可能にする。
深度推定用の多用途で高解像度な評価ベンチマーク（DA-2K）を導入する。

提案手法

高容量の教師を、正確な合成深度データ上で訓練する。
教師からの疑似深度を用いて、大規模なラベルなし実画像に注釈を付ける。
学生モデルを疑似ラベル付き実画像のみで訓練し、ゼロショット一般化を可能にする。
基本モデルをメトリック深度ラベルでファインチューニングして、メトリック深度モデルを得る。
アフィン不変の逆深度表現と、二つの損失（スケール不変・シフト不変損失；勾配一致損失）を監督に用いる。
事前訓練済みエンコーダの意味情報を保持するため、疑似ラベル付きデータ上に追加の特徴整合損失を組み込む。

実験結果

リサーチクエスチョン

RQ1軽量で識別的なモデルは、拡散ベースのモデリングを用いずに細かな深度ディテールを達成できるか。
RQ2単眼深度推定における合成データ使用の限界は何か、そしてそれらをどう緩和できるか。
RQ3ラベルなしの実画像を活用して、合成-to-real のギャップを埋め、より小さなモデルの一般化を向上させるにはどうすればよいか。

主な発見

すべてのラベル付き実画像を合成画像に置換すると、精密な深度ラベルと詳細な監督が得られる。
合成データで訓練された大容量の教師と実画像の疑似ラベル付けを組み合わせることで、頑健性と細かな深度予測が大幅に向上する。
Depth Anything V2 は、複数のモデルスケール（25M から 1.3B パラメータ）を提供し、同等のSDベースモデルより推論が速い。
学習データとして疑似ラベル付き実画像を用いることで、ゼロショット性能を強化し、シーンのカバー範囲を広げる。
新しい評価ベンチマークの DA-2K は、多様で高解像度のシーンと正確でまばらな深度ラベルを提供し、実世界の MDE パフォーマンスをよりよく反映する。
実データの疑似ラベルは、転移タスク（例：KITTI、NYU-D）で手作業ラベルの実データを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。