Skip to main content
QUICK REVIEW

[논문 리뷰] VIMI: Vehicle-Infrastructure Multi-view Intermediate Fusion for Camera-based 3D Object Detection

Zhe Wang, Siqi Fan|arXiv (Cornell University)|2023. 03. 20.
Advanced Neural Network Applications인용 수 8
한 줄 요약

VIMI는 Multi-scale Cross Attention 및 Camera-aware Channel Masking을 사용하여 다중 시점의 차량 및 인프라 카메라 특징을 융합하는 VIC3D용 중간 융합 프레임워크를 도입하고, 전송 비용을 줄이기 위한 Feature Compression 모듈을 통해 DAIR-V2X-C 벤치마크에서 최첨단 결과를 달성합니다.

ABSTRACT

In autonomous driving, Vehicle-Infrastructure Cooperative 3D Object Detection (VIC3D) makes use of multi-view cameras from both vehicles and traffic infrastructure, providing a global vantage point with rich semantic context of road conditions beyond a single vehicle viewpoint. Two major challenges prevail in VIC3D: 1) inherent calibration noise when fusing multi-view images, caused by time asynchrony across cameras; 2) information loss when projecting 2D features into 3D space. To address these issues, We propose a novel 3D object detection framework, Vehicles-Infrastructure Multi-view Intermediate fusion (VIMI). First, to fully exploit the holistic perspectives from both vehicles and infrastructure, we propose a Multi-scale Cross Attention (MCA) module that fuses infrastructure and vehicle features on selective multi-scales to correct the calibration noise introduced by camera asynchrony. Then, we design a Camera-aware Channel Masking (CCM) module that uses camera parameters as priors to augment the fused features. We further introduce a Feature Compression (FC) module with channel and spatial compression blocks to reduce the size of transmitted features for enhanced efficiency. Experiments show that VIMI achieves 15.61% overall AP_3D and 21.44% AP_BEV on the new VIC3D dataset, DAIR-V2X-C, significantly outperforming state-of-the-art early fusion and late fusion methods with comparable transmission cost.

연구 동기 및 목표

  • VIC3D의 다중 뷰 특징 융합 중 시간 비동기 및 보정 노이즈의 도전에 대해 동기를 부여하고 해결한다.
  • 단일한 엔드-투-엔드 중간 융합 프레임워크(VIMI)를 제안하여 차량 및 인프라 카메라 특징을 특징 차원에서 융합한다.
  • 융합 전 인프라 특징을 압축하여 전송 효율성을 향상시킨다.
  • 카메라 인트린직/익스트린직 priors를 이용한 카메라 의존 재가중 및 다중 스케일 교차 주의로 융합의 강건성과 정확도를 향상시킨다.
  • 전송 비용이 유사한 상태에서 DAIR-V2X-C VIC3D 벤치마크에서 최첨단 성능을 보인다

제안 방법

  • Infrastructure에서 차량으로 압축된 인프라 특징을 전송하기 위한 Feature Compression (FC).
  • 다중 스케일 교차 주의 (MCA)를 통해 다수의 스케일에서 차량 및 인프라 특징을 융합하고 보정 노이즈를 완화한다.
  • Camera-aware Channel Masking (CCM)으로 융합된 특징을 카메라 내부/외부 priors를 사용해 재가중한다.
  • Point-Sampling Voxel Fusion으로 보강된 특징을 단일 voxel 부피로 투사하고 BEV로 집계하여 3D 탐지를 수행한다.
  • BEV 특징에서 작동하는 3D 탐지 헤드와 표준 탐지 손실(bbox, cls, dir)을 사용한다.

실험 결과

연구 질문

  • RQ1차량 및 인프라 카메라 특징의 중간 융합이 보정 노이즈 및 시간 비동기에 대한 카메라 기반 VIC3D의 강건성을 어떻게 향상시킬 수 있는가?
  • RQ2다중 스케일 교차 주의가 융합을 위한 정보-rich 다중 뷰 특징을 선택적으로 효과적으로 제공하는가?
  • RQ3채널 마스킹을 통해 카메라 priors를 효과적으로 융합 특징에 반영할 수 있는가?
  • RQ4특징 압축이 VIC3D의 전송 효율성에 어떤 이점을 제공하되 탐지 성능을 저하시키지 않는가?

주요 결과

  • VIMI는 DAIR-V2X-C VIC3D 벤치마크에서 최첨단 결과를 달성하여 초기 융합 및 후기 융합 방법보다 전송 비용이 비슷한 수준에서 우수한 성능을 보인다.
  • 재설계(Ablation)에서 MCA와 CCM 각각 3D 및 BEV 탐지 지표를 개선하며, MCA가 스케일 인식 인프라 특징을 선택해 더 큰 이득을 제공한다.
  • FC는 전송 로드를 줄이면서 특징 정제 이점을 제공하여 전반적인 성능 향상에 기여한다.
  • Voxel 수준 특징 융합(IF-Voxel)은 BEV 수준 융합보다 더 우수하여 3D 공간에서의 정보 손실이 적음을 시사한다.
  • 전송 노이즈에 대한 VIMI의 강건성이 크며, 증가하는 평행 이동 노이즈 하에서 LF보다 더 높은 AP3D/APBEV를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.