Skip to main content
QUICK REVIEW

[논문 리뷰] Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion

Xuewu Lin, Tianwei Lin|arXiv (Cornell University)|2022. 11. 19.
Advanced Image and Video Retrieval Techniques인용 수 30
한 줄 요약

Sparse4D는 변형 가능한 4D 샘플링(점, 타임스탬프, 뷰, 스케일) 및 계층적 융합과 함께 희소 다중 뷰 3D 탐지를 도입하고, 인스턴스-깊이 재가중 모듈을 더해 nuScenes에서 희소 방법의 최상위 성능을 달성한다.

ABSTRACT

Bird-eye-view (BEV) based methods have made great progress recently in multi-view 3D detection task. Comparing with BEV based methods, sparse based methods lag behind in performance, but still have lots of non-negligible merits. To push sparse 3D detection further, in this work, we introduce a novel method, named Sparse4D, which does the iterative refinement of anchor boxes via sparsely sampling and fusing spatial-temporal features. (1) Sparse 4D Sampling: for each 3D anchor, we assign multiple 4D keypoints, which are then projected to multi-view/scale/timestamp image features to sample corresponding features; (2) Hierarchy Feature Fusion: we hierarchically fuse sampled features of different view/scale, different timestamp and different keypoints to generate high-quality instance feature. In this way, Sparse4D can efficiently and effectively achieve 3D detection without relying on dense view transformation nor global attention, and is more friendly to edge devices deployment. Furthermore, we introduce an instance-level depth reweight module to alleviate the ill-posed issue in 3D-to-2D projection. In experiment, our method outperforms all sparse based methods and most BEV based methods on detection task in the nuScenes dataset.

연구 동기 및 목표

  • 희소(비조밀) 다중 뷰 3D 탐지를 BEV 기반 방법과 경쟁하기 위해 개선의 필요성을 제시한다.
  • 시간, 뷰, 스케일에 걸친 다중 4D 키포인트의 희소 샘플링을 제안하여 더 풍부한 인스턴스 특징을 얻는다.
  • 다차원 특징을 효율적으로 융합하기 위한 변형 가능한 4D 집계를 개발한다.
  • 이미지 기반 3D 인지에서 깊이 모호성을 완화하기 위한 인스턴스 수준의 깊이 재가중 모듈을 도입한다.

제안 방법

  • 하나의 3D 기준점당 다중 4D 키포인트를 할당하고 다중 뷰, 다중 스케일, 다중 타임스탬프 이미지 특징에서 특징을 샘플링한다.
  • 4D 키포인트를 이미지 특징 맵으로 투영하고 스케일, 뷰, 시간에 따라 이중 보간으로 샘플링한다.
  • 그룹 기반 가중치 부여 및 시간적 융합을 통해 샘플링된 특징을 계층적으로 융합하여 정제된 인스턴스 특징을 생성한다.
  • LiDAR 감독 없이 깊이 분포를 활용하는 인스턴스 수준의 깊이 재가중 모듈을 도입한다.

실험 결과

연구 질문

  • RQ1희소 4D 키포인트 샘플링이 시간, 뷰, 스케일 전반에 걸쳐 BEV 기반 3D 탐지기와의 성능 격차를 좁힐 수 있는가?
  • RQ2변형 가능한 4D 집계가 공간-시간 맥락의 효율적이고 효과적인 융합을 가능하게 하여 3D 박스 정밀화를 향상시키는가?
  • RQ3 LiDAR 감독 없이 카메라 기반 3D 탐지에서 깊이 신호 활용을 개선하는 인스턴스 수준의 깊이 재가중이 가능한가?

주요 결과

  • Sparse4D는 nuScenes 3D 탐지 벤치마크에서 기존의 희소 기반 방법을 능가한다.
  • 다중 이력 프레임과 함께한 시간적 융합은 뚜렷한 이득을 가져오며, T=4일 때 T=1에 비해 mAP와 NDS가 크게 향상된다.
  • 깊이 재가중 및 학습 가능한 키포인트가 추가 성능 향상을 제공하며, mAP와 NDS에서 복합 이득을 기록한다.
  • 모션 보정(자기차량 및 물체 보정)이 Localization 및 속도 정확도를 크게 향상시킨다.
  • 여러 정제 단계와 과거 프레임으로 Sparse4D는 핵심 지표에서 BEV 기반 방법과 근접하거나 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.