Skip to main content
QUICK REVIEW

[논문 리뷰] DeepInteraction: 3D Object Detection via Modality Interaction

Zeyu Yang, Jiaqi Chen|arXiv (Cornell University)|2022. 08. 23.
Advanced Neural Network Applications인용 수 65
한 줄 요약

DeepInteraction은 멀티모달 인터랙션 인코더와 멀티-modal 예측 인터랙션 디코더를 통해 모달리티별 LiDAR 및 이미지 표현을 보존하고 상호 작용하며, nuScenes에서 3D 객체 탐지의 최첨단 성능을 달성합니다.

ABSTRACT

Existing top-performance 3D object detectors typically rely on the multi-modal fusion strategy. This design is however fundamentally restricted due to overlooking the modality-specific useful information and finally hampering the model performance. To address this limitation, in this work we introduce a novel modality interaction strategy where individual per-modality representations are learned and maintained throughout for enabling their unique characteristics to be exploited during object detection. To realize this proposed strategy, we design a DeepInteraction architecture characterized by a multi-modal representational interaction encoder and a multi-modal predictive interaction decoder. Experiments on the large-scale nuScenes dataset show that our proposed method surpasses all prior arts often by a large margin. Crucially, our method is ranked at the first position at the highly competitive nuScenes object detection leaderboard.

연구 동기 및 목표

  • 퓨전 기반의 멀티모달 3D 탐지가 모달리티별 강점을 버릴 수 있는 한계를 동기부여하고 극복한다.
  • 파이프라인 전체에서 두 모달리티별 표현을 유지하는 모달리티 상호작용 프레임워크를 제안한다.
  • 교차 모달 이점을 극대화하기 위해 멀티-modal 표현 상호작용을 갖춘 인코더와 멀티-modal 예측 상호작용을 갖춘 디코더를 설계한다.

제안 방법

  • LiDAR BEV와 이미지 원근 특징을 추출하기 위해 두 개의 병렬 백본을 사용한다.
  • MMRI(교차 모달 대응 매핑 및 주의) 및 인-트라-모달 학습과 표현 통합을 포함한 다중 입력-다중 출력 인코더를 적용한다.
  • RoI 특징을 해당 모달 표현으로부터 활용하여 객체 질의의 이미지- 및 LiDAR-가이드 업데이트를 번갈아 수행하는 예측 상호작용 디코더(MMPI)를 구현한다.
  • 매칭 비용 및 손실을 포함하는 DETR과 유사한 세트 예측 프레임워크로 학습한다.
  • nuScenes에서의 성능 향상을 위해 테스트 시간 증강 및 모델 앙상블로 평가한다.

실험 결과

연구 질문

  • RQ1명시적인 교차 모달 상호작용을 가진 모달리티별 표현을 별도로 유지하는 것이 3D 객체 탐지에서 전통적인 융합 표현보다 더 나은가?
  • RQ2MMRI와 MMPI가 객체 범주 및 거리 전반에 걸쳐 탐지 정확도에 how contribute하는가?
  • RQ3인코더/디코더 설계 및 레이어/쿼리 수가 탐지 성능 및 추론 속도에 어떤 영향을 미치는가?

주요 결과

방법모달리티백본검증 mAP검증 NDS테스트 mAP테스트 NDS
BEVDet4DCSwin-Base-42.154.545.156.9
BEVFormerCV99--48.156.9
Ego3RTCV99--47.853.442.547.9
PolarFormerCV99--50.056.249.357.2
CenterPointL-VoxelNet59.666.860.367.3
Focals ConvL-VoxelNet-FocalsConv61.268.163.870.0
Transfusion-LL-VoxelNet65.170.165.570.2
LargeKernel3DL-VoxelNet-LargeKernel3D63.369.165.370.5
FUTR3DL+CR101VoxelNet64.568.3--
PointAugmentingL+CDLA34VoxelNet--66.871.0
MVPL+CDLA34VoxelNet67.170.866.470.5
AutoAlignV2L+CCSPNetVoxelNet67.171.268.472.4
TransFusionL+CR50VoxelNet67.571.368.971.6
BEVFusionL+CSwin-TinyVoxelNet67.971.069.271.8
DeepInteraction-baseL+CR50VoxelNet69.972.670.873.4
Focals Conv-FL+CR50VoxelNet-FocalsConv67.171.570.173.6
LargeKernel3D-FL+CR50VoxelNet-LargeKernel--71.174.2
DeepInteraction-largeL+CSwin-TinyVoxelNet72.674.474.175.5
BEVFusion-eL+CSwin-TinyVoxelNet73.774.975.076.1
DeepInteraction-eL+CSwin-TinyVoxelNet73.975.075.676.3
  • DeepInteraction-base, DeepInteraction-large, DeepInteraction-e를 포함한 여러 설정에서 nuScenes에서 최첨단 결과를 달성한다.
  • ResNet-50 이미지 백본으로도 DeepInteraction-base가 이전 연구를 능가하며 Swin 백본을 사용하는 방법과 비교해서도 우수하다.
  • DeepInteraction-large 및 DeepInteraction-e는 제출된 방법들 중 nuScenes 리더보드에서 1위를 달성했으며 LiDAR 전용 기준선 대비 눈에 띄는 이득을 보인다.
  • ablation에서 MMRI(멀티모달 표현 상호작용)와 MMPI(멀티모달 예측 상호작용)가 모달리티 융합 및 단일 모달 기준선보다 명확한 이점을 제공한다.
  • LiDAR 백본(PointPillars, VoxelNet) 간에 DeepInteraction은 Transfusion 기반 및 기타 융합 방법과 비교하여 일관되게 mAP 및 NDS를 향상시킨다.
  • 범주별 분석에서 소형 또는 희귀 카테고리(예: 자전거, 오토바이, 교통원)가 더 큰 이점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.