[논문 리뷰] Deep Continuous Fusion for Multi-Sensor 3D Object Detection
두-스트림 엔드-투-엔드 3D 객체 탐지기를 도입하여 카메라 이미지 특징을 연속 융합 계층을 통해 LIDAR BEV 백본으로 지속적으로 융합함으로써 다센서 3D 로컬라이제이션을 향상시킵니다.
In this paper, we propose a novel 3D object detector that can exploit both LIDAR as well as cameras to perform very accurate localization. Towards this goal, we design an end-to-end learnable architecture that exploits continuous convolutions to fuse image and LIDAR feature maps at different levels of resolution. Our proposed continuous fusion layer encode both discrete-state image features as well as continuous geometric information. This enables us to design a novel, reliable and efficient end-to-end learnable 3D object detector based on multiple sensors. Our experimental evaluation on both KITTI as well as a large scale 3D object detection benchmark shows significant improvements over the state of the art.
연구 동기 및 목표
- 자율 주행에서 보완적인 카메라와 LIDAR 데이터를 사용한 강건한 3D 객체 탐지를 모티브로 한다.
- 모듈 간 기하학 정보를 보존하는 학습 가능한 융합 메커니즘을 개발한다.
- BEV 기반 탐지에 대해 연속적이고 다중 스케일 융합을 통한 엔드-투-엔드 학습을 가능하게 한다.
- KITTI 및 TOR4D 벤치마크에서 실시간 성능과 높은 정확도를 보여준다.
제안 방법
- 이미지와 LIDAR BEV 가지를 갖는 이중 흐름 네트워크를 제안한다.
- 이미지 특징을 BEV로 투사하고 이를 LIDAR BEV 특징과 KNN 기반 보간과 3D 오프셋을 포함하는 MLP를 통해 융합하는 연속 융합 계층을 도입한다.
- 깊은 매개변수형 연속 컨볼루션을 사용하여 조밀한 BEV 특징을 희박한 이미지-LIDAR 대응으로부터 보간한다.
- 피처 피라미드 스타일의 BEV 백본에서 네 가지 융합 계층을 통해 다중 스케일 이미지 특징을 BEV로 융합한다.
- 3D 바운딩 박스와 방향에 대한 분류 및 회귀 항을 결합한 다중 작업 손실로 엔드-투-엔드 학습을 수행한다.
실험 결과
연구 질문
- RQ1BEV 공간에서 이미지와 LIDAR 특징의 연속 융합이 LIDAR 전용 및 거친 융합 베이스라인보다 3D 객체 탐지를 향상시킬 수 있는가?
- RQ2KNN 풀링과 기하학적 오프셋 특징이 교차 모달 융합 성능에 어떤 영향을 미치는가?
- RQ3다중 스케일 연속 융합과 실시간 추론 간의 트레이드-오프는 어떤가?
주요 결과
| 입력 | 시간 (s) | 3D AP easy | 3D AP moderate | 3D AP hard | BEV AP easy | BEV AP moderate | BEV AP hard |
|---|---|---|---|---|---|---|---|
| MV3D [6] | 0.24 | 66.77 | 52.73 | 51.31 | 85.82 | 77.00 | 68.94 |
| VxNet [39] | 0.22 | 77.49 | 65.11 | 57.73 | 89.35 | 79.26 | 77.39 |
| NVLidarNet | 0.1 | n/a | n/a | n/a | 84.44 | 80.04 | 74.31 |
| PIXOR [37] | 0.035 | n/a | n/a | n/a | 87.25 | 81.92 | 76.01 |
| F-PC_CNN [8] | 0.5 | 60.06 | 48.07 | 45.22 | 83.77 | 75.26 | 70.17 |
| MV3D [6] | 0.36 | 71.09 | 62.35 | 55.12 | 86.02 | 76.90 | 68.49 |
| AVOD-FPN [18] | 0.1 | 81.94 | 71.88 | 66.38 | 88.53 | 83.79 | 77.90 |
| F-PointNet [26] | 0.17 | 81.20 | 70.39 | 62.19 | 88.70 | 84.00 | 75.33 |
| AVOD [18] | 0.08 | 73.59 | 65.78 | 58.38 | 86.80 | 85.44 | 77.73 |
| Our Cont Fuse | 0.06 | 82.54 | 66.22 | 64.04 | 88.81 | 85.83 | 77.33 |
- KITTI BEV에서 최첨단 방법들을 능가하고 3D 탐지에서 경쟁력이 있으며 실시간 성능(>15 FPS)도 강력합니다.
- KITTI 결과에서 Our Cont Fuse가 3D AP easy 82.54, moderate 66.22, hard 64.04 및 BEV AP easy 88.81, moderate 85.83, hard 77.33을 달성했습니다.
- TOR4D 결과에서 다중 클래스 BEV 탐지에서 긴 거리에서도 강한 성능을 보여줍니다(Vehicle AP0.5 94.94, Vehicle AP0.7 75.34; Pedestrian AP0.3 83.89, AP0.5 74.08; Bicyclist AP0.3 82.32, AP0.5 59.83).
- LIDAR 전용 및 이산 융합 베이스라인과 비교하여 연속 융합과 KNN 풀링 및 기하 오프셋이 모든 지표에서 일관된 향상을 보입니다.
- 아블레이션 연구에서 KNN 풀링과 기하학적 오프셋 입력이 모두 중요함을 보였으며 둘 중 하나를 제거하면 성능이 저하됩니다.
- 긴 거리에서의 이점은 TOR4D에서 두드러지며 특히 x가 증가할수록 효과적인 융합이 가능함을 시사합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.