[논문 리뷰] DeepInteraction: 3D Object Detection via Modality Interaction
DeepInteraction은 멀티모달 인터랙션 인코더와 멀티-modal 예측 인터랙션 디코더를 통해 모달리티별 LiDAR 및 이미지 표현을 보존하고 상호 작용하며, nuScenes에서 3D 객체 탐지의 최첨단 성능을 달성합니다.
Existing top-performance 3D object detectors typically rely on the multi-modal fusion strategy. This design is however fundamentally restricted due to overlooking the modality-specific useful information and finally hampering the model performance. To address this limitation, in this work we introduce a novel modality interaction strategy where individual per-modality representations are learned and maintained throughout for enabling their unique characteristics to be exploited during object detection. To realize this proposed strategy, we design a DeepInteraction architecture characterized by a multi-modal representational interaction encoder and a multi-modal predictive interaction decoder. Experiments on the large-scale nuScenes dataset show that our proposed method surpasses all prior arts often by a large margin. Crucially, our method is ranked at the first position at the highly competitive nuScenes object detection leaderboard.
연구 동기 및 목표
- 퓨전 기반의 멀티모달 3D 탐지가 모달리티별 강점을 버릴 수 있는 한계를 동기부여하고 극복한다.
- 파이프라인 전체에서 두 모달리티별 표현을 유지하는 모달리티 상호작용 프레임워크를 제안한다.
- 교차 모달 이점을 극대화하기 위해 멀티-modal 표현 상호작용을 갖춘 인코더와 멀티-modal 예측 상호작용을 갖춘 디코더를 설계한다.
제안 방법
- LiDAR BEV와 이미지 원근 특징을 추출하기 위해 두 개의 병렬 백본을 사용한다.
- MMRI(교차 모달 대응 매핑 및 주의) 및 인-트라-모달 학습과 표현 통합을 포함한 다중 입력-다중 출력 인코더를 적용한다.
- RoI 특징을 해당 모달 표현으로부터 활용하여 객체 질의의 이미지- 및 LiDAR-가이드 업데이트를 번갈아 수행하는 예측 상호작용 디코더(MMPI)를 구현한다.
- 매칭 비용 및 손실을 포함하는 DETR과 유사한 세트 예측 프레임워크로 학습한다.
- nuScenes에서의 성능 향상을 위해 테스트 시간 증강 및 모델 앙상블로 평가한다.
실험 결과
연구 질문
- RQ1명시적인 교차 모달 상호작용을 가진 모달리티별 표현을 별도로 유지하는 것이 3D 객체 탐지에서 전통적인 융합 표현보다 더 나은가?
- RQ2MMRI와 MMPI가 객체 범주 및 거리 전반에 걸쳐 탐지 정확도에 how contribute하는가?
- RQ3인코더/디코더 설계 및 레이어/쿼리 수가 탐지 성능 및 추론 속도에 어떤 영향을 미치는가?
주요 결과
| 방법 | 모달리티 | 백본 | 검증 mAP | 검증 NDS | 테스트 mAP | 테스트 NDS | ||
|---|---|---|---|---|---|---|---|---|
| BEVDet4D | C | Swin-Base | - | 42.1 | 54.5 | 45.1 | 56.9 | |
| BEVFormer | C | V99 | - | - | 48.1 | 56.9 | ||
| Ego3RT | C | V99 | - | - | 47.8 | 53.4 | 42.5 | 47.9 |
| PolarFormer | C | V99 | - | - | 50.0 | 56.2 | 49.3 | 57.2 |
| CenterPoint | L | - | VoxelNet | 59.6 | 66.8 | 60.3 | 67.3 | |
| Focals Conv | L | - | VoxelNet-FocalsConv | 61.2 | 68.1 | 63.8 | 70.0 | |
| Transfusion-L | L | - | VoxelNet | 65.1 | 70.1 | 65.5 | 70.2 | |
| LargeKernel3D | L | - | VoxelNet-LargeKernel3D | 63.3 | 69.1 | 65.3 | 70.5 | |
| FUTR3D | L+C | R101 | VoxelNet | 64.5 | 68.3 | - | - | |
| PointAugmenting | L+C | DLA34 | VoxelNet | - | - | 66.8 | 71.0 | |
| MVP | L+C | DLA34 | VoxelNet | 67.1 | 70.8 | 66.4 | 70.5 | |
| AutoAlignV2 | L+C | CSPNet | VoxelNet | 67.1 | 71.2 | 68.4 | 72.4 | |
| TransFusion | L+C | R50 | VoxelNet | 67.5 | 71.3 | 68.9 | 71.6 | |
| BEVFusion | L+C | Swin-Tiny | VoxelNet | 67.9 | 71.0 | 69.2 | 71.8 | |
| DeepInteraction-base | L+C | R50 | VoxelNet | 69.9 | 72.6 | 70.8 | 73.4 | |
| Focals Conv-F | L+C | R50 | VoxelNet-FocalsConv | 67.1 | 71.5 | 70.1 | 73.6 | |
| LargeKernel3D-F | L+C | R50 | VoxelNet-LargeKernel | - | - | 71.1 | 74.2 | |
| DeepInteraction-large | L+C | Swin-Tiny | VoxelNet | 72.6 | 74.4 | 74.1 | 75.5 | |
| BEVFusion-e | L+C | Swin-Tiny | VoxelNet | 73.7 | 74.9 | 75.0 | 76.1 | |
| DeepInteraction-e | L+C | Swin-Tiny | VoxelNet | 73.9 | 75.0 | 75.6 | 76.3 |
- DeepInteraction-base, DeepInteraction-large, DeepInteraction-e를 포함한 여러 설정에서 nuScenes에서 최첨단 결과를 달성한다.
- ResNet-50 이미지 백본으로도 DeepInteraction-base가 이전 연구를 능가하며 Swin 백본을 사용하는 방법과 비교해서도 우수하다.
- DeepInteraction-large 및 DeepInteraction-e는 제출된 방법들 중 nuScenes 리더보드에서 1위를 달성했으며 LiDAR 전용 기준선 대비 눈에 띄는 이득을 보인다.
- ablation에서 MMRI(멀티모달 표현 상호작용)와 MMPI(멀티모달 예측 상호작용)가 모달리티 융합 및 단일 모달 기준선보다 명확한 이점을 제공한다.
- LiDAR 백본(PointPillars, VoxelNet) 간에 DeepInteraction은 Transfusion 기반 및 기타 융합 방법과 비교하여 일관되게 mAP 및 NDS를 향상시킨다.
- 범주별 분석에서 소형 또는 희귀 카테고리(예: 자전거, 오토바이, 교통원)가 더 큰 이점을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.