QUICK REVIEW

[論文レビュー] EA-LSS: Edge-aware Lift-splat-shot Framework for 3D BEV Object Detection

Haotian Hu, Fanyi Wang|arXiv (Cornell University)|Mar 31, 2023

Advanced Neural Network Applications被引用数 13

ひとこと要約

EA-LSSはエッジ配慮深度融合と細粒度深度監督を導入し、LSSベースのBEV三次元検出における深度推定を改善、nuScenesで最先端の結果をほとんど推論オーバーヘッドなしで達成。

ABSTRACT

In recent years, great progress has been made in the Lift-Splat-Shot-based (LSS-based) 3D object detection method. However, inaccurate depth estimation remains an important constraint to the accuracy of camera-only and multi-model 3D object detection models, especially in regions where the depth changes significantly (i.e., the "depth jump" problem). In this paper, we proposed a novel Edge-aware Lift-splat-shot (EA-LSS) framework. Specifically, edge-aware depth fusion (EADF) module is proposed to alleviate the "depth jump" problem and fine-grained depth (FGD) module to further enforce refined supervision on depth. Our EA-LSS framework is compatible for any LSS-based 3D object detection models, and effectively boosts their performances with negligible increment of inference time. Experiments on nuScenes benchmarks demonstrate that EA-LSS is effective in either camera-only or multi-model models. It is worth mentioning that EA-LSS achieved the state-of-the-art performance on nuScenes test benchmarks with mAP and NDS of 76.5% and 77.6%, respectively.

研究の動機と目的

LSSベースのBEV物体検出における深度ジャンプ問題と、それが深度推定精度へ与える影響を動機づける。
物体エッジでの深度ガイダンスを強化するエッジ配慮深度融合（EADF）を提案する。
学習時に詳細な深度監督を提供する細粒度深度（FGD）モジュールを導入する。
既存のLSSベースBEV手法と互換性のあるプラグアンドプレイのEA-LSSフレームワークを開発する。
推論時オーバーヘッドがほとんどない状態でnuScenesで3D検出性能が向上することを示す。

提案手法

エッジ配慮深度融合（EADF）モジュールと細粒度深度（FGD）モジュールを結合したプラグアンドプレイのEA-LSSフレームワークを提案する。
EADFは多視点密な深度マップとエッジマップを計算し、それらを融合して深度推定のエッジ対応監督を生成する。
FGDはアップサンプリング分岐を追加し、焦点化に似た損失を用いて非ゼロ深度ピクセルを監督し、深度分布の細部を保持する。
FGD損失は非ゼロのグラウンドトゥルース深度ピクセルに焦点を当て、ゼロが監督を支配するのを避ける。
EA-LSSはEADFとFGD損失を標準的な検出損失（分類と箱回帰）とともに総合学習目的へ組み込む。
このフレームワークは複数のLSSベースBEV検出器と互換で、nuScenesのカメラ単独およびマルチモーダル設定で評価される。

実験結果

リサーチクエスチョン

RQ1LSSベースBEV検出器における急な深度変化（深度ジャンプ）領域で深度推定をどう改善できるか？
RQ2エッジ配慮深度手がかりと細粒度深度監督は深度のずれを低減しBEV特徴を改善できるか？
RQ3nuScenesにおけるカメラのみおよびマルチモーダルBEV 3D検出器へのEADFとFGDの統合の影響はどうか？
RQ4EA-LSSは検出精度を向上させつつ、推論時オーバーヘッドをほとんど保持できるか？

主な発見

手法	モダリティ	mAP	NDS	mATE	mASE	mAOE	mAVE	mAAE
BEVDet	C	42.2	48.2	0.529	0.236	0.396	0.979	0.152
BEVFormer	C	44.5	53.5	0.582	0.256	0.375	0.378	0.126
CenterPoint	L	60.3	67.3	0.262	0.239	0.361	0.288	0.136
TransFusion	C+L	68.9	71.6	0.259	0.243	0.359	0.288	0.127
CMT	C+L	70.4	73.0	0.299	0.241	0.323	0.240	0.112
DeepInteraction	C+L	70.8	73.4	0.257	0.240	0.325	0.245	0.128
BEVFusion	C+L	71.3	73.3	0.250	0.240	0.359	0.254	0.132
+EA-LSS	C+L	72.2	74.4	0.247	0.237	0.304	0.250	0.133
EA-LSS*	C+L	76.5	77.6	0.233	0.228	0.281	0.196	0.123

EA-LSSはカメラのみおよびマルチモーダルのベースラインで改善を提供; 例としてTig-bevがmAP 2.1%、NDS 3.2%、BEVFusionがmAP 1.6%、NDS 1.0%の向上。
nuScenesテストで、テスト時拡張とモデルアンサンブリングを用いたEA-LSSは最先端のmAP 76.5%とNDS 77.6%を達成。
アブレーションではFGDとEADFの双方が性能向上に寄与することを示す。FGD単独は控えめな向上、EADFを追加するとより大きな改善を達成。
フレームワークは推論時オーバーヘッドがほとんどなく、実用的効率を維持。
EA-LSSは深度分布の有効な refinemenとエッジ重視の深度ガイダンスを示し、BEV前駆体における深度ジャンプ問題を緩和。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。