QUICK REVIEW

[논문 리뷰] BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

Junjie Huang, Guan Huang|arXiv (Cornell University)|2022. 03. 31.

Advanced Neural Network Applications인용 수 156

한 줄 요약

BEVDet4D는 BEVDet를 공간-시간적 4D 공간으로 확장하여 현재 프레임과 이전 프레임의 BEV 특징을 융합하고 속도 예측을 향상시키며 오버헤드는 거의 없고 nuScenes에서 최첨단 비전 기반 3D 탐지 성능을 달성한다.

ABSTRACT

Single frame data contains finite information which limits the performance of the existing vision-based multi-camera 3D object detection paradigms. For fundamentally pushing the performance boundary in this area, a novel paradigm dubbed BEVDet4D is proposed to lift the scalable BEVDet paradigm from the spatial-only 3D space to the spatial-temporal 4D space. We upgrade the naive BEVDet framework with a few modifications just for fusing the feature from the previous frame with the corresponding one in the current frame. In this way, with negligible additional computing budget, we enable BEVDet4D to access the temporal cues by querying and comparing the two candidate features. Beyond this, we simplify the task of velocity prediction by removing the factors of ego-motion and time in the learning target. As a result, BEVDet4D with robust generalization performance reduces the velocity error by up to -62.9%. This makes the vision-based methods, for the first time, become comparable with those relied on LiDAR or radar in this aspect. On challenge benchmark nuScenes, we report a new record of 54.5% NDS with the high-performance configuration dubbed BEVDet4D-Base, which surpasses the previous leading method BEVDet-Base by +7.3% NDS. The source code is publicly available for further research at https://github.com/HuangJunJie2017/BEVDet .

연구 동기 및 목표

BEVDet를 공간 기반에서 공간-시간적 4D 융합으로 확장하여 시간적 단서를 활용한다.
경량의 시간 융합 메커니즘을 도입하면서 BEVDet의 아키텍처를 유지한다.
절대 속도 대신 인접한 BEV 특징 간의 위치 오프셋을 예측하여 속도 학습을 단순화한다.
nuScenes에서 최소한의 추론 오버헤드로 속도, 방향 및 속성 오차를 개선되었음을 보여준다.

제안 방법

현재 프레임의 BEV 특징과 이전 프레임의 BEV 특징을 저장하고 정렬 후 현재 프레임과 연결(concatenate)하여 시간 융합을 추가하는 방식으로 BEVDet 이미지 뷰 인코더, 뷰 트랜스포머, BEV 인코더 및 태스크 헤드를 유지한다.
융합 전에 자가 모션을 제거하기 위해 이전 프레임의 BEV 특징에 간단한 공간 정렬을 적용한다.
시간 융합 전에 희박한 특징을 보정하고 학습을 안정화하기 위해 추가 BEV 인코더를 도입한다.
속도 예측을 인접한 BEV 특징 간의 변환으로 형식화하고 목표 학습 신호에서 자가 모션을 제거한다.
정렬은 회전과 평행이동(Eq. 2)으로 탐색하고 필요 시 bilinear 보간으로 특징 정렬(Eq. 3)을 구현한다.
nuScenes 지표(mAP, mATE, mASE, mAOE, mAVE, mAAE, NDS)와 추론 속도(FPS)를 평가한다.

실험 결과

연구 질문

RQ1두 인접 프레임의 BEV 특징 융합이 순수한 비전 기반 다중 카메라 설정에서 속도 및 전반적 3D 객체 탐지 성능을 향상시킬 수 있는가?
RQ2자가 모션을 시간적 특징 차이로부터 분리하고 속도 예측의 학습을 안정시키기 위해 필요한 정렬 및 네트워크 조정은 무엇인가?
RQ3BEVDet4D가 nuScenes에서 정확도와 속도 측면에서 최첨단 비전 기반 기준선과 비교했을 때 어떤 차이가 있는가?

주요 결과

방법	모달리티	mAP	mATE	mASE	mAOE	mAVE	mAAE	NDS	FPS
BEVDet4D-Tiny	Camera	0.338	0.672	0.274	0.519	0.337	0.185	0.476	15.5
BEVDet4D-Base	Camera	0.426	0.579	0.254	0.317	0.301	0.191	0.552	-

BEVDet4D-Tiny는 nuScenes val에서 BEVDet-Tiny보다 속도 오차를 62.9% 감소시키고 AVE를 0.909에서 0.337 mAVE로 개선하며 NDS를 8.4% 향상시켰다.
BEVDet4D-Base는 nuScenes val에서 54.5%의 NDS를, 테스트 세트에서 56.9%의 NDS를 달성하여 이전 비전 기반 방법 및 BEVDet 변종들을 능가하면서도 유사한 지연을 유지한다.
추가 BEV 인코더 뒤의 시간 융합이 최적의 트레이드오프를 제공하며 초기 구성에 비해 mAP, NDS, 속도 지표에서 뚜렷한 이점을 보인다.
시간적 신호를 활용하면 BEVDet4D는 LiDAR/레이더 기반 속도 정밀도에 근접한 차이를 줄이고 nuScenes 검증에서 비 RGB 모달리티와의 AVE에서도 경쟁력을 얻는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.