QUICK REVIEW

[논문 리뷰] EA-LSS: Edge-aware Lift-splat-shot Framework for 3D BEV Object Detection

Haotian Hu, Fanyi Wang|arXiv (Cornell University)|2023. 03. 31.

Advanced Neural Network Applications인용 수 13

한 줄 요약

EA-LSS는 LSS 기반 BEV 3D 탐지의 깊이 추정 품질을 개선하기 위해 에지 인식 깊이 융합과 미세한 깊이 감독을 도입하고, 추론 오버헤드가 거의 없으면서 nuScenes에서 최첨단 성능을 달성한다.

ABSTRACT

In recent years, great progress has been made in the Lift-Splat-Shot-based (LSS-based) 3D object detection method. However, inaccurate depth estimation remains an important constraint to the accuracy of camera-only and multi-model 3D object detection models, especially in regions where the depth changes significantly (i.e., the "depth jump" problem). In this paper, we proposed a novel Edge-aware Lift-splat-shot (EA-LSS) framework. Specifically, edge-aware depth fusion (EADF) module is proposed to alleviate the "depth jump" problem and fine-grained depth (FGD) module to further enforce refined supervision on depth. Our EA-LSS framework is compatible for any LSS-based 3D object detection models, and effectively boosts their performances with negligible increment of inference time. Experiments on nuScenes benchmarks demonstrate that EA-LSS is effective in either camera-only or multi-model models. It is worth mentioning that EA-LSS achieved the state-of-the-art performance on nuScenes test benchmarks with mAP and NDS of 76.5% and 77.6%, respectively.

연구 동기 및 목표

LSS 기반 BEV 객체 탐지에서 깊이 점프 문제와 이는 깊이 추정 정확도에 미치는 영향을 동기화한다.
에지 인식 깊이 융합(EADF)을 제안하여 물체 경계에서 깊이 안내를 강화한다.
학습 중 자세한 깊이 감독을 제공하는 미세 깊이(FGD) 모듈을 도입한다.
기존 LSS 기반 BEV 방법과 호환되는 플러그앤플레이형 EA-LSS 프레임워크를 개발한다.
추론 시간 오버헤드를 거의 증가시키지 않으면서 nuScenes에서 개선된 3D 탐지 성능을 입증한다.

제안 방법

에지 인식 깊이 융합(EADF) 모듈과 미세 깊이(FGD) 모듈을 결합한 플러그앤플레이형 EA-LSS 프레임워크를 제안한다.
EADF는 다시보기(Dense) 깊이 맵과 에지 맵을 계산한 다음 이를 융합하여 깊이 추정을 위한 에지 인식 감독을 생성한다.
FGD는 업샘플링 분기(branch)를 추가하고 포컬 유사 손실과 같은 손실을 사용하여 0이 아닌 깊이 픽셀을 감독함으로써 깊이 분포의 세부 정보를 보존한다.
FGD 손실은 0이 아닌 그라운드 트루스 깊이 픽셀에 초점을 맞춰 0이 지배하는 감독을 피한다.
EA-LSS는 EADF와 FGD 손실을 표준 탐지 손실(분류 및 박스 회귀)과 함께 총 학습 목표에 결합한다.
프레임워크는 다수의 LSS 기반 BEV 탐지기에 호환되며 nuScenes의 카메라- 및 다중 모드 설정에서 평가된다.

실험 결과

연구 질문

RQ1깊이 급격 변화 영역(depth jumps)에서 깊이 추정을 어떻게 개선할 수 있는가? LSS 기반 BEV 탐지에서.
RQ2에지 인식 깊이 단서와 미세 깊이 감독이 깊이 불일치를 줄이고 BEV 특징을 개선할 수 있는가?
RQ3EA-LSS(EADF와 FGD의 통합)가 nuScenes의 카메라 전용 및 다중 모달 BEV 3D 탐지기에 미치는 영향은 어떠한가?
RQ4EA-LSS가 탐지 정확도를 향상시키면서 추론 시간 오버헤드를 무시할 만한 수준으로 유지하는가?

주요 결과

방법	모달리티	mAP	NDS	mATE	mASE	mAOE	mAVE	mAAE
BEVDet	C	42.2	48.2	0.529	0.236	0.396	0.979	0.152
BEVFormer	C	44.5	53.5	0.582	0.256	0.375	0.378	0.126
CenterPoint	L	60.3	67.3	0.262	0.239	0.361	0.288	0.136
TransFusion	C+L	68.9	71.6	0.259	0.243	0.359	0.288	0.127
CMT	C+L	70.4	73.0	0.299	0.241	0.323	0.240	0.112
DeepInteraction	C+L	70.8	73.4	0.257	0.240	0.325	0.245	0.128
BEVFusion	C+L	71.3	73.3	0.250	0.240	0.359	0.254	0.132
+EA-LSS	C+L	72.2	74.4	0.247	0.237	0.304	0.250	0.133
EA-LSS*	C+L	76.5	77.6	0.233	0.228	0.281	0.196	0.123

EA-LSS는 카메라 전용 및 다중 모듈 baselines에서 개선을 제공한다; 예를 들어 Tig-bev는 mAP 2.1% 증가, NDS 3.2% 증가, BEVFusion은 mAP 1.6% 증가, NDS 1.0% 증가를 달성한다.
nuScenes 테스트에서 테스트 시간 보정 및 모델 앙상블을 통한 EA-LSS는 최첨단 mAP 76.5% 및 NDS 77.6%를 달성한다.
ablation은 FGD와 EADF 각각이 성능 향상에 기여함을 보여주며, 단독 FGD는 소폭의 이득을 주는 반면 EADF를 추가하면 더 큰 향상을 제공한다.
프레임워크는 추론 시간 오버헤드를 거의 발생시키지 않아 실용적 효율성을 유지한다.
EA-LSS는 깊이 분포의 정교한 개선과 에지 중심의 깊이 안내를 보여주며 BEV 전하에서의 depth-jump 문제를 완화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.