QUICK REVIEW

[논문 리뷰] LXL: LiDAR Excluded Lean 3D Object Detection With 4D Imaging Radar and Camera Fusion

Weiyi Xiong, Jianan Liu|arXiv (Cornell University)|2023. 07. 03.

Advanced Neural Network Applications참고 문헌 59인용 수 2

한 줄 요약

이 논문은 라이다를 배제한 3차원 객체 검출 프레임워크인 LXL을 제안한다. 이는 새로운 '레이더 오염도 보조 깊이 기반 샘플링' 전략을 통해 4D 이미징 레이더와 카메라 데이터를 융합한다. 예측된 이미지 깊이 분포 맵과 레이더 3D 오염도 격자 맵을 활용함으로써 LXL은 시각 변환 정확도를 향상시키며, 라이다 없이 VoD 및 TJ4DRadSet에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

As an emerging technology and a relatively affordable device, the 4D imaging radar has already been confirmed effective in performing 3D object detection in autonomous driving. Nevertheless, the sparsity and noisiness of 4D radar point clouds hinder further performance improvement, and in-depth studies about its fusion with other modalities are lacking. On the other hand, as a new image view transformation strategy, "sampling" has been applied in a few image-based detectors and shown to outperform the widely applied "depth-based splatting" proposed in Lift-Splat-Shoot (LSS), even without image depth prediction. However, the potential of "sampling" is not fully unleashed. This paper investigates the "sampling" view transformation strategy on the camera and 4D imaging radar fusion-based 3D object detection. LiDAR Excluded Lean (LXL) model, predicted image depth distribution maps and radar 3D occupancy grids are generated from image perspective view (PV) features and radar bird's eye view (BEV) features, respectively. They are sent to the core of LXL, called "radar occupancy-assisted depth-based sampling", to aid image view transformation. We demonstrated that more accurate view transformation can be performed by introducing image depths and radar information to enhance the "sampling" strategy. Experiments on VoD and TJ4DRadSet datasets show that the proposed method outperforms the state-of-the-art 3D object detection methods by a significant margin without bells and whistles. Ablation studies demonstrate that our method performs the best among different enhancement settings.

연구 동기 및 목표

3차원 객체 검출에서 흐린 레이더 포인트 클라우드 문제를 해결한다.
장거리 성능에서 떨어지는 기존의 '스플래터링' 방식과 같은 시각 변환 방법의 한계를 극복한다.
이미지에서 BEV 특징으로의 변환에서 '샘플링'이 '깊이 기반 스플래터링'보다 뛰어난 대안이 될 수 있음을 탐색한다.
레이더 3D 오염도 격자 맵과 이미지 기반 깊이 예측을 융합하여 다중 모odal 융합을 향상시킨다.
비용에 민감한 자율주행에 적합한 경량적이고 효율적이며 정확한 라이다 제외 3차원 객체 검출 시스템을 개발한다.

제안 방법

이미지 깊이 분포 맵과 레이더 3D 오염도 격자 맵을 융합하는 새로운 시각 변환 전략인 '레이더 오염도 보조 깊이 기반 샘플링'을 제안한다.
깊이 헤드를 사용하여 이미지 시점 시각(POV) 특징에서 예측된 이미지 깊이 분포 맵을 생성한다.
경량 오염도 네트워크를 사용하여 레이더 비둘기 눈금 시각(BEV) 좌표계에서 직접적으로 레이더 3D 오염도 격자 맵을 생성한다.
이미지 깊이와 레이더 오염도의 융합 정보를 활용해 BEV 변환 중 특징 샘플링을 안내함으로써 더 나은 공간 정렬을 확보한다.
BEV 공간에서 레이더 3D 오염도 격자 맵을 효율적으로 처리하기 위해 희소 컨볼루션 연산을 적용한다.
변환된 특징을 3차원 검출 헤드에 통합하여 라이다 없이도 엔드 투 엔드 3차원 객체 검출을 수행한다.

실험 결과

연구 질문

RQ1카메라와 4D 레이더 융합에 적용했을 때, '샘플링'이 '스플래터링'보다 이미지에서 BEV 특징 변환에서 더 우수한 성능을 내는가?
RQ2레이더 3D 오염도 격자 맵을 통합함으로써 깊이 기반 샘플링의 시각 변환 정확도는 얼마나 향상되는가?
RQ3라이다를 제외한 시스템이 레이더와 카메라 데이터만으로 3차원 객체 검출에서 최신 기술 수준의 성능을 달성할 수 있는가?
RQ4깊이 감독과 오염도 격자 기반 레이더 융합 간의 성능 상충 관계는 어떠한가?
RQ5제한된 센서 데이터에서 복잡한 다단계 아키텍처보다 단순하면서도 효과적인 융합 전략이 3차원 검출에서 뛰어난 성능을 낼 수 있는가?

주요 결과

제안된 '레이더 오염도 보조 깊이 기반 샘플링' 전략은 VoD 및 TJ4DRadSet 데이터셋에서 '스플래터링'과 다른 레이더 융합 방법보다 뚜렷이 뛰어난 성능을 보였다.
라이다를 사용하지 않고도 3차원 객체 검출에서 최신 기술 수준의 성능을 달성함으로써, 라이다 제외 시스템의 실현 가능성을 입증했다.
절단 분석 결과, 이미지 깊이 맵과 레이더 3D 오염도 격자 맵의 조합이 샘플링 전략에 가장 효과적인 향상을 가져다준다.
모든 거리 범위에서 EAA AP 측면에서 '샘플링' 방식이 '스플래터링' 방식을 일관되게 능가했으며, 특히 '스플래터링'이 흐릿함으로 인해 성능이 떨어지는 장거리 검출에서 두드러진 성능 향상을 보였다.
레이더 포인트에서 진짜 깊이 할당을 기반으로 한 레이더 보조 깊이 감독 방법은 레이더 노이즈와 흐릿함으로 인해 효과적으로 수렴하지 못했다.
'3D 오염도 격자 맵(CRN)' 대안 방법은 더 높은 계산 비용과 흐린 레이더 데이터에 민감한 반면, LXL은 뛰어난 속도와 정확도를 유지함으로써 LXL에 비해 떨어지는 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.