Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Continuous Fusion for Multi-Sensor 3D Object Detection

Ming Liang, Bin Yang|arXiv (Cornell University)|2020. 12. 20.
Advanced Neural Network Applications참고 문헌 39인용 수 430
한 줄 요약

두-스트림 엔드-투-엔드 3D 객체 탐지기를 도입하여 카메라 이미지 특징을 연속 융합 계층을 통해 LIDAR BEV 백본으로 지속적으로 융합함으로써 다센서 3D 로컬라이제이션을 향상시킵니다.

ABSTRACT

In this paper, we propose a novel 3D object detector that can exploit both LIDAR as well as cameras to perform very accurate localization. Towards this goal, we design an end-to-end learnable architecture that exploits continuous convolutions to fuse image and LIDAR feature maps at different levels of resolution. Our proposed continuous fusion layer encode both discrete-state image features as well as continuous geometric information. This enables us to design a novel, reliable and efficient end-to-end learnable 3D object detector based on multiple sensors. Our experimental evaluation on both KITTI as well as a large scale 3D object detection benchmark shows significant improvements over the state of the art.

연구 동기 및 목표

  • 자율 주행에서 보완적인 카메라와 LIDAR 데이터를 사용한 강건한 3D 객체 탐지를 모티브로 한다.
  • 모듈 간 기하학 정보를 보존하는 학습 가능한 융합 메커니즘을 개발한다.
  • BEV 기반 탐지에 대해 연속적이고 다중 스케일 융합을 통한 엔드-투-엔드 학습을 가능하게 한다.
  • KITTI 및 TOR4D 벤치마크에서 실시간 성능과 높은 정확도를 보여준다.

제안 방법

  • 이미지와 LIDAR BEV 가지를 갖는 이중 흐름 네트워크를 제안한다.
  • 이미지 특징을 BEV로 투사하고 이를 LIDAR BEV 특징과 KNN 기반 보간과 3D 오프셋을 포함하는 MLP를 통해 융합하는 연속 융합 계층을 도입한다.
  • 깊은 매개변수형 연속 컨볼루션을 사용하여 조밀한 BEV 특징을 희박한 이미지-LIDAR 대응으로부터 보간한다.
  • 피처 피라미드 스타일의 BEV 백본에서 네 가지 융합 계층을 통해 다중 스케일 이미지 특징을 BEV로 융합한다.
  • 3D 바운딩 박스와 방향에 대한 분류 및 회귀 항을 결합한 다중 작업 손실로 엔드-투-엔드 학습을 수행한다.

실험 결과

연구 질문

  • RQ1BEV 공간에서 이미지와 LIDAR 특징의 연속 융합이 LIDAR 전용 및 거친 융합 베이스라인보다 3D 객체 탐지를 향상시킬 수 있는가?
  • RQ2KNN 풀링과 기하학적 오프셋 특징이 교차 모달 융합 성능에 어떤 영향을 미치는가?
  • RQ3다중 스케일 연속 융합과 실시간 추론 간의 트레이드-오프는 어떤가?

주요 결과

입력시간 (s)3D AP easy3D AP moderate3D AP hardBEV AP easyBEV AP moderateBEV AP hard
MV3D [6]0.2466.7752.7351.3185.8277.0068.94
VxNet [39]0.2277.4965.1157.7389.3579.2677.39
NVLidarNet0.1n/an/an/a84.4480.0474.31
PIXOR [37]0.035n/an/an/a87.2581.9276.01
F-PC_CNN [8]0.560.0648.0745.2283.7775.2670.17
MV3D [6]0.3671.0962.3555.1286.0276.9068.49
AVOD-FPN [18]0.181.9471.8866.3888.5383.7977.90
F-PointNet [26]0.1781.2070.3962.1988.7084.0075.33
AVOD [18]0.0873.5965.7858.3886.8085.4477.73
Our Cont Fuse0.0682.5466.2264.0488.8185.8377.33
  • KITTI BEV에서 최첨단 방법들을 능가하고 3D 탐지에서 경쟁력이 있으며 실시간 성능(>15 FPS)도 강력합니다.
  • KITTI 결과에서 Our Cont Fuse가 3D AP easy 82.54, moderate 66.22, hard 64.04 및 BEV AP easy 88.81, moderate 85.83, hard 77.33을 달성했습니다.
  • TOR4D 결과에서 다중 클래스 BEV 탐지에서 긴 거리에서도 강한 성능을 보여줍니다(Vehicle AP0.5 94.94, Vehicle AP0.7 75.34; Pedestrian AP0.3 83.89, AP0.5 74.08; Bicyclist AP0.3 82.32, AP0.5 59.83).
  • LIDAR 전용 및 이산 융합 베이스라인과 비교하여 연속 융합과 KNN 풀링 및 기하 오프셋이 모든 지표에서 일관된 향상을 보입니다.
  • 아블레이션 연구에서 KNN 풀링과 기하학적 오프셋 입력이 모두 중요함을 보였으며 둘 중 하나를 제거하면 성능이 저하됩니다.
  • 긴 거리에서의 이점은 TOR4D에서 두드러지며 특히 x가 증가할수록 효과적인 융합이 가능함을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.