QUICK REVIEW

[논문 리뷰] Deep Continuous Fusion for Multi-Sensor 3D Object Detection

Ming Liang, Bin Yang|arXiv (Cornell University)|2020. 12. 20.

Advanced Neural Network Applications참고 문헌 39인용 수 430

한 줄 요약

두-스트림 엔드-투-엔드 3D 객체 탐지기를 도입하여 카메라 이미지 특징을 연속 융합 계층을 통해 LIDAR BEV 백본으로 지속적으로 융합함으로써 다센서 3D 로컬라이제이션을 향상시킵니다.

ABSTRACT

In this paper, we propose a novel 3D object detector that can exploit both LIDAR as well as cameras to perform very accurate localization. Towards this goal, we design an end-to-end learnable architecture that exploits continuous convolutions to fuse image and LIDAR feature maps at different levels of resolution. Our proposed continuous fusion layer encode both discrete-state image features as well as continuous geometric information. This enables us to design a novel, reliable and efficient end-to-end learnable 3D object detector based on multiple sensors. Our experimental evaluation on both KITTI as well as a large scale 3D object detection benchmark shows significant improvements over the state of the art.

연구 동기 및 목표

자율 주행에서 보완적인 카메라와 LIDAR 데이터를 사용한 강건한 3D 객체 탐지를 모티브로 한다.
모듈 간 기하학 정보를 보존하는 학습 가능한 융합 메커니즘을 개발한다.
BEV 기반 탐지에 대해 연속적이고 다중 스케일 융합을 통한 엔드-투-엔드 학습을 가능하게 한다.
KITTI 및 TOR4D 벤치마크에서 실시간 성능과 높은 정확도를 보여준다.

제안 방법

이미지와 LIDAR BEV 가지를 갖는 이중 흐름 네트워크를 제안한다.
이미지 특징을 BEV로 투사하고 이를 LIDAR BEV 특징과 KNN 기반 보간과 3D 오프셋을 포함하는 MLP를 통해 융합하는 연속 융합 계층을 도입한다.
깊은 매개변수형 연속 컨볼루션을 사용하여 조밀한 BEV 특징을 희박한 이미지-LIDAR 대응으로부터 보간한다.
피처 피라미드 스타일의 BEV 백본에서 네 가지 융합 계층을 통해 다중 스케일 이미지 특징을 BEV로 융합한다.
3D 바운딩 박스와 방향에 대한 분류 및 회귀 항을 결합한 다중 작업 손실로 엔드-투-엔드 학습을 수행한다.

실험 결과

연구 질문

RQ1BEV 공간에서 이미지와 LIDAR 특징의 연속 융합이 LIDAR 전용 및 거친 융합 베이스라인보다 3D 객체 탐지를 향상시킬 수 있는가?
RQ2KNN 풀링과 기하학적 오프셋 특징이 교차 모달 융합 성능에 어떤 영향을 미치는가?
RQ3다중 스케일 연속 융합과 실시간 추론 간의 트레이드-오프는 어떤가?

주요 결과

입력	시간 (s)	3D AP easy	3D AP moderate	3D AP hard	BEV AP easy	BEV AP moderate	BEV AP hard
MV3D [6]	0.24	66.77	52.73	51.31	85.82	77.00	68.94
VxNet [39]	0.22	77.49	65.11	57.73	89.35	79.26	77.39
NVLidarNet	0.1	n/a	n/a	n/a	84.44	80.04	74.31
PIXOR [37]	0.035	n/a	n/a	n/a	87.25	81.92	76.01
F-PC_CNN [8]	0.5	60.06	48.07	45.22	83.77	75.26	70.17
MV3D [6]	0.36	71.09	62.35	55.12	86.02	76.90	68.49
AVOD-FPN [18]	0.1	81.94	71.88	66.38	88.53	83.79	77.90
F-PointNet [26]	0.17	81.20	70.39	62.19	88.70	84.00	75.33
AVOD [18]	0.08	73.59	65.78	58.38	86.80	85.44	77.73
Our Cont Fuse	0.06	82.54	66.22	64.04	88.81	85.83	77.33

KITTI BEV에서 최첨단 방법들을 능가하고 3D 탐지에서 경쟁력이 있으며 실시간 성능(>15 FPS)도 강력합니다.
KITTI 결과에서 Our Cont Fuse가 3D AP easy 82.54, moderate 66.22, hard 64.04 및 BEV AP easy 88.81, moderate 85.83, hard 77.33을 달성했습니다.
TOR4D 결과에서 다중 클래스 BEV 탐지에서 긴 거리에서도 강한 성능을 보여줍니다(Vehicle AP0.5 94.94, Vehicle AP0.7 75.34; Pedestrian AP0.3 83.89, AP0.5 74.08; Bicyclist AP0.3 82.32, AP0.5 59.83).
LIDAR 전용 및 이산 융합 베이스라인과 비교하여 연속 융합과 KNN 풀링 및 기하 오프셋이 모든 지표에서 일관된 향상을 보입니다.
아블레이션 연구에서 KNN 풀링과 기하학적 오프셋 입력이 모두 중요함을 보였으며 둘 중 하나를 제거하면 성능이 저하됩니다.
긴 거리에서의 이점은 TOR4D에서 두드러지며 특히 x가 증가할수록 효과적인 융합이 가능함을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.