Skip to main content
QUICK REVIEW

[論文レビュー] BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

Yinhao Li, Zheng Ge|arXiv (Cornell University)|Jun 21, 2022
Advanced Vision and Imaging被引用数 20
ひとこと要約

BEVDepthは、マルチビューカメラベースのBEV 3D物体検出の深度品質を改善するために、明示的な深度監督とDepth Refinement Moduleを導入し、深度品質を向上させる。nuScenesでの最先端の結果を達成します。

ABSTRACT

In this research, we propose a new 3D object detector with a trustworthy depth estimation, dubbed BEVDepth, for camera-based Bird's-Eye-View (BEV) 3D object detection. Our work is based on a key observation -- depth estimation in recent approaches is surprisingly inadequate given the fact that depth is essential to camera 3D detection. Our BEVDepth resolves this by leveraging explicit depth supervision. A camera-awareness depth estimation module is also introduced to facilitate the depth predicting capability. Besides, we design a novel Depth Refinement Module to counter the side effects carried by imprecise feature unprojection. Aided by customized Efficient Voxel Pooling and multi-frame mechanism, BEVDepth achieves the new state-of-the-art 60.9% NDS on the challenging nuScenes test set while maintaining high efficiency. For the first time, the NDS score of a camera model reaches 60%.

研究の動機と目的

  • カメラベースのマルチビュー3D検出において信頼できる深度の必要性を喚起する。
  • Lift-splatベースの検出器で学習された深度が、正確な3D検出にとってなぜ不十分なのかを調査する。
  • 深度品質を改善するため、明示的な深度監督とカメラ認識深度予測を備えた BEVDepth を提案する。
  • unprojection 時の誤投影を是正する Depth Refinement Module を導入する。
  • nuScenes の最先端結果につながる堅牢性と効率性の向上を示す。

提案手法

  • LiDAR点を画像平面へ投影してDepthNetの訓練用Dgtを生成することによる明示的な深度監督。
  • カメラの内部パラメータ/外部パラメータを入力として取り込み、深度予測をガイドするカメラ認識 DepthNet。
  • ボクセルプーリング前に深度軸に沿って特徴を集約・細分化するDepth Refinement Module。
  • 計算を高速化し時系列情報を活用するためのEfficient Voxel PoolingとMulti-frame Fusion。
  • 標準の深度推論をDepthNetに置換したBaseline Lift-splatアーキテクチャで深度の影響を検討する。

実験結果

リサーチクエスチョン

  • RQ1マルチビューカメラ設定において、深度予測の品質は3D物体検出の性能にどのように影響するか?
  • RQ2点群からの明示的な深度監督は、検出主導の監督のみより深度学習を改善できるか?
  • RQ3深度予測モジュールにカメラの内部パラメータ/外部パラメータを組み込む影響はどうか?
  • RQ4Depth Refinement Module は未投影特徴を正規化することによって BEV の意味論と検出精度を改善するか?
  • RQ5Efficient Voxel Pooling や Multi-frame Fusion のような効率化技術は BEVDepth で高い性能を維持できるか?

主な発見

モデルmAPmATEmASEmAOEmAVEmAAENDS
BEVDepth (R50, 256x704, 追加データなし)0.5030.4450.2450.3780.3200.1260.600
BEVDepth† (ConvNeXT バックボーン)0.5200.4450.2430.3520.3470.1270.609
  • BEVDepth はカメラベースの BEV 検出器を用いて nuScenes テストセットで 60.0% NDS を達成(現時点最先端)。
  • 明示的な深度監督とカメラ認識DepthNet によって深度品質が大幅に向上し、mATE を低減し BEV の意味論を改善。
  • Depth Refinement Module は unprojection 中に深度軸に沿った深度配置を精査することで追加の利得を提供。
  • Efficient Voxel Pooling と Multi-frame Fusion は精度を犠牲にすることなく substantial なスピードアップとより良い速度推定をもたらす。
  • nuScenes の val で、カメラ認識と深度 refinement を組み合わせた BEVDepth は構成に応じて 0.322–0.330 mAP と 0.606–0.609 NDS に到達し、いくつかのベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。