QUICK REVIEW

[논문 리뷰] VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for Camera-based 3D Object Detection

Zhe Wang, Siqi Fan|arXiv (Cornell University)|2023. 03. 20.

Advanced Neural Network Applications인용 수 8

한 줄 요약

VIMI는 Multi-scale Cross Attention 및 Camera-aware Channel Masking을 사용하여 다중 시점의 차량 및 인프라 카메라 특징을 융합하는 VIC3D용 중간 융합 프레임워크를 도입하고, 전송 비용을 줄이기 위한 Feature Compression 모듈을 통해 DAIR-V2X-C 벤치마크에서 최첨단 결과를 달성합니다.

ABSTRACT

In autonomous driving, Vehicle-Infrastructure Cooperative 3D Object Detection (VIC3D) makes use of multi-view cameras from both vehicles and traffic infrastructure, providing a global vantage point with rich semantic context of road conditions beyond a single vehicle viewpoint. Two major challenges prevail in VIC3D: 1) inherent calibration noise when fusing multi-view images, caused by time asynchrony across cameras; 2) information loss when projecting 2D features into 3D space. To address these issues, We propose a novel 3D object detection framework, Vehicles-Infrastructure Multi-view Intermediate fusion (VIMI). First, to fully exploit the holistic perspectives from both vehicles and infrastructure, we propose a Multi-scale Cross Attention (MCA) module that fuses infrastructure and vehicle features on selective multi-scales to correct the calibration noise introduced by camera asynchrony. Then, we design a Camera-aware Channel Masking (CCM) module that uses camera parameters as priors to augment the fused features. We further introduce a Feature Compression (FC) module with channel and spatial compression blocks to reduce the size of transmitted features for enhanced efficiency. Experiments show that VIMI achieves 15.61% overall AP_3D and 21.44% AP_BEV on the new VIC3D dataset, DAIR-V2X-C, significantly outperforming state-of-the-art early fusion and late fusion methods with comparable transmission cost.

연구 동기 및 목표

VIC3D의 다중 뷰 특징 융합 중 시간 비동기 및 보정 노이즈의 도전에 대해 동기를 부여하고 해결한다.
단일한 엔드-투-엔드 중간 융합 프레임워크(VIMI)를 제안하여 차량 및 인프라 카메라 특징을 특징 차원에서 융합한다.
융합 전 인프라 특징을 압축하여 전송 효율성을 향상시킨다.
카메라 인트린직/익스트린직 priors를 이용한 카메라 의존 재가중 및 다중 스케일 교차 주의로 융합의 강건성과 정확도를 향상시킨다.
전송 비용이 유사한 상태에서 DAIR-V2X-C VIC3D 벤치마크에서 최첨단 성능을 보인다

제안 방법

Infrastructure에서 차량으로 압축된 인프라 특징을 전송하기 위한 Feature Compression (FC).
다중 스케일 교차 주의 (MCA)를 통해 다수의 스케일에서 차량 및 인프라 특징을 융합하고 보정 노이즈를 완화한다.
Camera-aware Channel Masking (CCM)으로 융합된 특징을 카메라 내부/외부 priors를 사용해 재가중한다.
Point-Sampling Voxel Fusion으로 보강된 특징을 단일 voxel 부피로 투사하고 BEV로 집계하여 3D 탐지를 수행한다.
BEV 특징에서 작동하는 3D 탐지 헤드와 표준 탐지 손실(bbox, cls, dir)을 사용한다.

실험 결과

연구 질문

RQ1차량 및 인프라 카메라 특징의 중간 융합이 보정 노이즈 및 시간 비동기에 대한 카메라 기반 VIC3D의 강건성을 어떻게 향상시킬 수 있는가?
RQ2다중 스케일 교차 주의가 융합을 위한 정보-rich 다중 뷰 특징을 선택적으로 효과적으로 제공하는가?
RQ3채널 마스킹을 통해 카메라 priors를 효과적으로 융합 특징에 반영할 수 있는가?
RQ4특징 압축이 VIC3D의 전송 효율성에 어떤 이점을 제공하되 탐지 성능을 저하시키지 않는가?

주요 결과

VIMI는 DAIR-V2X-C VIC3D 벤치마크에서 최첨단 결과를 달성하여 초기 융합 및 후기 융합 방법보다 전송 비용이 비슷한 수준에서 우수한 성능을 보인다.
재설계(Ablation)에서 MCA와 CCM 각각 3D 및 BEV 탐지 지표를 개선하며, MCA가 스케일 인식 인프라 특징을 선택해 더 큰 이득을 제공한다.
FC는 전송 로드를 줄이면서 특징 정제 이점을 제공하여 전반적인 성능 향상에 기여한다.
Voxel 수준 특징 융합(IF-Voxel)은 BEV 수준 융합보다 더 우수하여 3D 공간에서의 정보 손실이 적음을 시사한다.
전송 노이즈에 대한 VIMI의 강건성이 크며, 증가하는 평행 이동 노이즈 하에서 LF보다 더 높은 AP3D/APBEV를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.