[論文レビュー] ZoeDepth: Zero-shot Transfer by Combining Relative and Metric Depth
ZoeDepthは相対深度事前学習を指標深度ヘッドと自動ルーティングと組み合わせることで、室内・室外データセット全体で強力な指標深度性能と前例のないゼロショット一般化を実現します。
This paper tackles the problem of depth estimation from a single image. Existing work either focuses on generalization performance disregarding metric scale, i.e. relative depth estimation, or state-of-the-art results on specific datasets, i.e. metric depth estimation. We propose the first approach that combines both worlds, leading to a model with excellent generalization performance while maintaining metric scale. Our flagship model, ZoeD-M12-NK, is pre-trained on 12 datasets using relative depth and fine-tuned on two datasets using metric depth. We use a lightweight head with a novel bin adjustment design called metric bins module for each domain. During inference, each input image is automatically routed to the appropriate head using a latent classifier. Our framework admits multiple configurations depending on the datasets used for relative depth pre-training and metric fine-tuning. Without pre-training, we can already significantly improve the state of the art (SOTA) on the NYU Depth v2 indoor dataset. Pre-training on twelve datasets and fine-tuning on the NYU Depth v2 indoor dataset, we can further improve SOTA for a total of 21% in terms of relative absolute error (REL). Finally, ZoeD-M12-NK is the first model that can jointly train on multiple datasets (NYU Depth v2 and KITTI) without a significant drop in performance and achieve unprecedented zero-shot generalization performance to eight unseen datasets from both indoor and outdoor domains. The code and pre-trained models are publicly available at https://github.com/isl-org/ZoeDepth .
研究の動機と目的
- 単一データセットに過剰適合し、ドメイン間の一般化に欠ける指標深度モデルの制約に対処する。
- 微調整時に指標深度を保持しつつ、一般化を改善するために相対深度事前学習を活用する。
- 軽量でドメイン特化の指標深度ヘッド(metric bins module)と推論時に適切なヘッドを選択する自動ルーティング機構を開発する。
- NYU Depth v2とKITTIで最先端性能の改善を示し、見たことのない8つのデータセットへのゼロショット一般化の強さを示す。
提案手法
- 二段階フレームワーク:まず MiDaS 戦略を用いて相対深度(RDE)の共通エンコーダ−デコーダを事前学習し、次に指標深度ヘッドを追加して指標深度データセットで微調整する。
- アトラクター層を用いた metric bins module (MBM) を導入し、各ピクセルの深度ビン中心を予測し、それを各ピクセルのビン確率と結合して指標深度を出力する。
- 深度ビンの標準予測を二項順序確率モデルに置き換え、深度順序を尊重し安定性を向上させる。
- マルチスケールデコーダ特徴を用いて、逆アトラクター層を介してビン中心を洗練させ、ビンを分割するのではなく学習されたアトラクターに中心を移動させる。
- 自動ルーティング:推論時に、エンコーダ特徴で訓練された潜在分類器を介して各画像を適切な指標ヘッドへルーティングする;シングルヘッドまたはマルチヘッド(室内/室外)構成をサポート。
- 監督にはスケール不変ピクセル損失を用いて訓練する。メモリの理由で Chamfer 損失には依存せず、ピクセル単位のスケール不変損失に焦点を当てる。
実験結果
リサーチクエスチョン
- RQ1相対深度で事前学習した単一モデルは、指標深度の精度を犠牲にすることなく、複数のドメイン(室内/室外)にまたがる指標深度へ一般化できるのか?
- RQ2MBMとアトラクターを備えた軽量なドメイン別指標ヘッドは、跨域一般化を維持しつつ指標スケールを効果的に回復するのか?
- RQ3ドメイン別ヘッドへの自動ルーティングは、未知データセットへのゼロショット一般化にどのような影響を与えるのか?
主な発見
| Method | δ1 | δ2 | δ3 | REL | RMSE | log10 |
|---|---|---|---|---|---|---|
| NeWCRFs [50] | 0.922 | 0.992 | 0.998 | 0.095 | 0.334 | 0.041 |
| ZoeD-X-N | 0.946 | 0.994 | 0.999 | 0.082 | 0.294 | 0.035 |
| ZoeD-M12-N | 0.955 | 0.995 | 0.999 | 0.075 | 0.270 | 0.032 |
| ZoeD-M12-NK | 0.953 | 0.995 | 0.999 | 0.077 | 0.277 | 0.033 |
- ZoeD-X-Nは、相対深度事前学習なしでも NYU Depth v2 の最先端をすでに上回っており(RELはNeWCRFsより13.7%改善)。
- ZoeD-M12-N(12データセットでの相対前訓練+NYUでの指標微調整)は、NYU Depth v2の従来SOTAより約21% REL改善を達成。
- ZoeD-M12-NK(NYUとKITTIでのマルチドメイン微調整と室内/室外ヘッドへのルーティング)は、NeWCRFsより総合RELを24.3%改善し、8つの未知データセットで強力なゼロショット結果を示す。
- 未知の室内データセットでのゼロショット一般化はmRIθが最大46.3%(例:DIODE Indoor)に達し、従来法より一貫して良い性能を示す。
- 未知の室外データセットでのゼロショット一般化はDIML Outdoorで最大976.4%のmRIθを達成し、Virtual KITTI 2やDDADなど他データセットでも強力な結果。
- 本手法は、室内外データセットでの訓練を行っても大幅な性能低下を伴わず、堅牢なマルチドメイン学習を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。