[논문 리뷰] Deep Continuous Fusion for Multi-Sensor 3D Object Detection
두-스트림 엔드-투-엔드 3D 객체 탐지기를 도입하여 카메라 이미지 특징을 연속 융합 계층을 통해 LIDAR BEV 백본으로 지속적으로 융합함으로써 다센서 3D 로컬라이제이션을 향상시킵니다.
In this paper, we propose a novel 3D object detector that can exploit both LIDAR as well as cameras to perform very accurate localization. Towards this goal, we design an end-to-end learnable architecture that exploits continuous convolutions to fuse image and LIDAR feature maps at different levels of resolution. Our proposed continuous fusion layer encode both discrete-state image features as well as continuous geometric information. This enables us to design a novel, reliable and efficient end-to-end learnable 3D object detector based on multiple sensors. Our experimental evaluation on both KITTI as well as a large scale 3D object detection benchmark shows significant improvements over the state of the art.
연구 동기 및 목표
- 자율 주행에서 보완적인 카메라와 LIDAR 데이터를 사용한 강건한 3D 객체 탐지를 모티브로 한다.
- 모듈 간 기하학 정보를 보존하는 학습 가능한 융합 메커니즘을 개발한다.
- BEV 기반 탐지에 대해 연속적이고 다중 스케일 융합을 통한 엔드-투-엔드 학습을 가능하게 한다.
- KITTI 및 TOR4D 벤치마크에서 실시간 성능과 높은 정확도를 보여준다.
제안 방법
- 이미지와 LIDAR BEV 가지를 갖는 이중 흐름 네트워크를 제안한다.
- 이미지 특징을 BEV로 투사하고 이를 LIDAR BEV 특징과 KNN 기반 보간과 3D 오프셋을 포함하는 MLP를 통해 융합하는 연속 융합 계층을 도입한다.
- 깊은 매개변수형 연속 컨볼루션을 사용하여 조밀한 BEV 특징을 희박한 이미지-LIDAR 대응으로부터 보간한다.
- 피처 피라미드 스타일의 BEV 백본에서 네 가지 융합 계층을 통해 다중 스케일 이미지 특징을 BEV로 융합한다.
- 3D 바운딩 박스와 방향에 대한 분류 및 회귀 항을 결합한 다중 작업 손실로 엔드-투-엔드 학습을 수행한다.
실험 결과
연구 질문
- RQ1BEV 공간에서 이미지와 LIDAR 특징의 연속 융합이 LIDAR 전용 및 거친 융합 베이스라인보다 3D 객체 탐지를 향상시킬 수 있는가?
- RQ2KNN 풀링과 기하학적 오프셋 특징이 교차 모달 융합 성능에 어떤 영향을 미치는가?
- RQ3다중 스케일 연속 융합과 실시간 추론 간의 트레이드-오프는 어떤가?
주요 결과
- KITTI BEV에서 최첨단 방법들을 능가하고 3D 탐지에서 경쟁력이 있으며 실시간 성능(>15 FPS)도 강력합니다.
- KITTI 결과에서 Our Cont Fuse가 3D AP easy 82.54, moderate 66.22, hard 64.04 및 BEV AP easy 88.81, moderate 85.83, hard 77.33을 달성했습니다.
- TOR4D 결과에서 다중 클래스 BEV 탐지에서 긴 거리에서도 강한 성능을 보여줍니다(Vehicle AP0.5 94.94, Vehicle AP0.7 75.34; Pedestrian AP0.3 83.89, AP0.5 74.08; Bicyclist AP0.3 82.32, AP0.5 59.83).
- LIDAR 전용 및 이산 융합 베이스라인과 비교하여 연속 융합과 KNN 풀링 및 기하 오프셋이 모든 지표에서 일관된 향상을 보입니다.
- 아블레이션 연구에서 KNN 풀링과 기하학적 오프셋 입력이 모두 중요함을 보였으며 둘 중 하나를 제거하면 성능이 저하됩니다.
- 긴 거리에서의 이점은 TOR4D에서 두드러지며 특히 x가 증가할수록 효과적인 융합이 가능함을 시사합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.