[論文レビュー] MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation
MiDaS v3.1 は、新しいエンコーダバックボーン(BEiT、Swin、SwinV2、Next-ViT、LeViT)を含む幅広い深度推定モデルを公開し、単眼の相対深度推定における品質と実行時のトレードオフを分析するとともに、将来のバックボーンの統合に関するガイドラインを提供します。
We release MiDaS v3.1 for monocular depth estimation, offering a variety of new models based on different encoder backbones. This release is motivated by the success of transformers in computer vision, with a large variety of pretrained vision transformers now available. We explore how using the most promising vision transformers as image encoders impacts depth estimation quality and runtime of the MiDaS architecture. Our investigation also includes recent convolutional approaches that achieve comparable quality to vision transformers in image classification tasks. While the previous release MiDaS v3.0 solely leverages the vanilla vision transformer ViT, MiDaS v3.1 offers additional models based on BEiT, Swin, SwinV2, Next-ViT and LeViT. These models offer different performance-runtime tradeoffs. The best model improves the depth estimation quality by 28% while efficient models enable downstream tasks requiring high frame rates. We also describe the general process for integrating new backbones. A video summarizing the work can be found at https://youtu.be/UjaeNNFf9sE and the code is available at https://github.com/isl-org/MiDaS.
研究の動機と目的
- MiDaS アーキテクチャに、トランスフォーマー系および畳み込み系の広範なバックボーンを組み込むことで、単眼相対深度推定を進化させる。
- さまざまなバックボーン間で深度推定の品質と実行時を比較し、さまざまな下流タスクのモデル選択を導く。
- MiDaS への新しいバックボーンを統合し、モデル zoo の拡張のための実用的なフレームワークとガイドラインを提供する。
- 多様なデータセットと解像度にわたるモデルの一般化を評価し、ゼロショットおよび跨域性能を通知する。
提案手法
- 新しいエンコーダバックボーン(BEiT、Swin、SwinV2、Next-ViT、LeViT)を MiDaS のデコーダに、エンコーダの段階を深度デコーダに接続するように慎重に選択したフックを介して統合する。
- PyTorch Image Models (timm) ライブラリを用いてバックボーンを作成し、MiDaS 深度デコーダに適合させるカスタムフック機構を活用する。
- 3段階のトレーニングを含む複数データセット混合で訓練( subset で 60 エポックの事前学習、全混合で 60 エポック)と、2 段階の最適化(エンコーダ 1e-5、デコーダ 1e-4)を行う。
- DIW、ETH3D、Sintel、KITTI、NYU Depth v2、TUM ほかを組み込んだデータセット混合(3+10 および 5+12)を使用して一般化性能を向上させる。
- 確立された深度指標(DIW の WHDR、ETH3D/Sintel の REL、NYU/KITTI/TUM の delta1 > 1.25)を用いて評価し、ViT-L 384 をベースラインとして相対的な改善を報告する。
実験結果
リサーチクエスチョン
- RQ1MiDaS v3.1 の下で、平方解像度と制約のない解像度の両方で、どのバックボーンが最も良い深度推定品質を提供するか?
- RQ2さまざまなバックボーンの実行時の影響(FPS)はどの程度で、どのモデルがリアルタイムタスクに適しているか?
- RQ3トランスフォーマー系バックボーンは、畳み込みバックボーンと比べて深度推定の精度とデータセット横断的な一般化にどう影響するか?
- RQ4MiDaS アーキテクチャに新しいエンコーダバックボーンを統合する際の実用的なガイドラインは?
- RQ5訓練データ混合を増やす(3+10 対 5+12)が KITTI および NYU Depth v2 でのゼロショット性能にどう影響するか?
主な発見
- BEiT-512-L は、平方解像度と制約のない解像度の両方で最高のモデルであり、ベースラインに対する相対的改善が大きい。
- Swin および SwinV2 バックボーンモデルは、解像度と速度のさまざまなトレードオフを伴い、高品質な深度を提供する。
- LeViT-224 は新モデルの中で最速で(最大 73 fps)、一部の従来の軽量モデルを上回る。
- 一部の未公開バックボーン(例:Swin-L、Swin-T、MobileViTv2 変種)は、品質基準に対して低いまたは結論が出ていない利益を示し、リリースされなかった。品質基準に基づく選択を示している。
- 公開された最良モデルは ViT-L ベースラインに対して相対的改善 I を含む顕著な利得を達成し、BEiT-512-L および BEiT-384-L バリアントはデータセット全体で強い性能を発揮する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。