QUICK REVIEW

[論文レビュー] Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Lihe Yang, Bingyi Kang|arXiv (Cornell University)|Jan 19, 2024

Advanced Vision and Imaging被引用数 21

ひとこと要約

Depth Anythingは、自己学習パイプライン、強力な摂動、意味的事前知識の指針により、ラベルなしデータを拡張して単眼深度推定の基盤モデルを訓練し、強力なゼロショット一般化と、ファインチューニング時の競争力のある指標深度を達成します。

ABSTRACT

This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.

研究の動機と目的

大規模なラベルなし単眼画像が単眼深度推定と一般化を大幅に改善しうることを示す。
ラベルなし画像を自動的に注釈付けし、スケーラブルな訓練を可能にするデータエンジンを開発する。
単純な自己学習の利得だけではなく、ラベルなしデータを活用する訓練戦略を調査する。
事前訓練済みエンコーダから意味的事前知識を継承し、深度解釈を強化し、マルチタスクの可能性を開く。
多様なデータセットにおけるゼロショット深度と指標深度の性能を示し、困難な条件下での頑健性を評価する。

提案手法

ラベル付きデータで訓練された教師が、ラベルなし画像の疑似深度ラベルを生成する教師–生徒フレームワークを作成する。
ラベルなしデータにおいて強い摂動（カラーの歪み、ガウスぼかし、CutMix）を用い、生徒に対してより難しい学習目標を課す。
データセット間で未知の深度スケール/シフトに対処するため、ラベル付きデータにはアフィン不変損失を採用する。
深度モデルと凍結されたDINOv2エンコーダの特徴を許容マージンを伴って一致させる意味的事前整合損失を組み込む。
DINOv2の重みでエンコーダを初期化し、深度回帰にはDPTデコーダを用いる。
各バッチでラベル付きデータと疑似ラベル付きデータの比率を1:2で訓練し、教師を微調整するのではなく生徒を再初期化する。

実験結果

リサーチクエスチョン

RQ1大規模なラベルなしの単眼画像は、さまざまな未知ドメインにわたってゼロショットの単眼深度推定を著しく改善できるか？
RQ2強い摂動で生徒を厳しく訓練し、意味的事前知識を取り入れることは、素朴な自己学習と比べて一般化と頑健性を向上させるか？
RQ3凍結されたエンコーダからの意味的事前知識を用いることが、深度推定およびセマンティックセグメンテーションなどの下流タスクにどのような影響を与えるか？
RQ4標準ベンチマークで、Depth Anythingはゼロショットおよびファインチューニングされた指標深度設定でどう機能するか？
RQ5学習済みエンコーダは、中間レベルおよび高レベルの知覚タスクの両方に適用できる汎用的なマルチタスク表現として機能するか？

主な発見

Depth Anythingは、6つの未知データセットにおける強力なゼロショット相対深度推定を達成し、ViT-L、ViT-B、ViT-Sエンコーダを用いた場合のいくつかのケースでMiDaS v3.1を上回る。
ゼロショット指標深度推定では、Depth Anythingの事前訓練エンコーダは室内外の深度を改善し、指標深度情報でファインチューニングした場合、ZoeDepthのような既存手法を上回るか、同等になることが多い。
NYUv2とKITTIで指標深度のためにDepth Anythingエンコーダをファインチューニングすると、報告されたベースラインと比較して競争力のあるまたは優れた結果を得る（例：NYUv2: AbsRel 0.056, delta1 0.984; KITTI: AbsRel 0.046, delta1 0.982）。
モデルの事前訓練済みエンコーダは、ADE20KとCityscapesでいくつかのImageNet事前訓練バックボーンより高いmIoUを達成するなど、セマンティックセグメンテーションへの移行性が高い。
DINOv2エンコーダとの特徴整合損失の追加は、深度推定とセマンティックセグメンテーションの下流性能を改善し、有意義な意味的事前知識が転移されていることを示している。
定性的な結果は、低照度、霧、超遠距離のシーンでの頑健性を示し、この手法はControlNetを用いた深度条件付き画像合成を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。