[논문 리뷰] Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object Detection
Fore-Mamba3D는 전경 중심 인코딩과 지역-전역 슬라이딩 윈도우 및 의미 보조 상태 융합을 도입하여 3D 물체 탐지를 향상시키고, nuScenes에서 LiDAR-전용 방법 중 최첨단 성능을 달성하고 KITTI 및 Waymo에서도 강력한 성능을 보여준다.
Linear modeling methods like Mamba have been merged as the effective backbone for the 3D object detection task. However, previous Mamba-based methods utilize the bidirectional encoding for the whole non-empty voxel sequence, which contains abundant useless background information in the scenes. Though directly encoding foreground voxels appears to be a plausible solution, it tends to degrade detection performance. We attribute this to the response attenuation and restricted context representation in the linear modeling for fore-only sequences. To address this problem, we propose a novel backbone, termed Fore-Mamba3D, to focus on the foreground enhancement by modifying Mamba-based encoder. The foreground voxels are first sampled according to the predicted scores. Considering the response attenuation existing in the interaction of foreground voxels across different instances, we design a regional-to-global slide window (RGSW) to propagate the information from regional split to the entire sequence. Furthermore, a semantic-assisted and state spatial fusion module (SASFMamba) is proposed to enrich contextual representation by enhancing semantic and geometric awareness within the Mamba model. Our method emphasizes foreground-only encoding and alleviates the distance-based and causal dependencies in the linear autoregression model. The superior performance across various benchmarks demonstrates the effectiveness of Fore-Mamba3D in the 3D object detection task.
연구 동기 및 목표
- 3D 보셀 시퀀스의 배경 노이즈를 줄이기 위해 전경 중심 인코딩을 동기화하려는 목적.
- 자가 회귀 Mamba의 응답 감쇠를 완화하기 위해 지역-전역 슬라이딩 윈도우(RGSW)를 개발.
- 상태 변수의 의미 및 기하학적 맥락을 풍부하게 하기 위한 의미 보조 융합(SAF) 및 상태 공간 융합(SSF)을 도입한 SASFMamba로 맥락 표현 강화.
- 메모리 및 계산 비용을 줄이면서 탐지 성능 향상.
- nuScenes, KITTI, Waymo 벤치마크에서의 효과성 검증
제안 방법
- Hilbert 곡선으로 평면화된 시퀀스에서 전경 보셀 점수를 예측하고 상위 k개의 보셀을 전경 특징으로 샘플링합니다.
- 자가 회귀 Mamba 백본에서 지역 정보를 전역 시퀀스로 전파하기 위해 지역-전역 슬라이딩 윈도우(RGSW)를 적용합니다.
- SAF(의미 보조 융합)와 SSF(상태 공간 융합)를 통해 의미적/기하학적 맥락을 상태 변수에 풍부하게 하는 SASFMamba를 도입합니다.
- 지역적 절단을 완화하기 위해 다중 회전 Hilbert 평면화 방식을 사용하고 회전된 전경 특징을 배경 보셀과 결합합니다.
- 탐지 헤드에 대해 전경 점수 및 의미 카테고리에 대한 포컬 로스와 함께, L_cls 및 L_reg 로스의 표준 탐지 로스를 사용하여 학습합니다.
실험 결과
연구 질문
- RQ1RGSW를 통한 전경 중심 인코딩이 전통적 전 전체 보셀 Mamba 백본 대비 장거리 상호작용을 개선하는가?
- RQ2SAF와 SSF가 선형 Mamba 백본의 상태 변수에 의미적 및 기하학적 향상을 제공하는가?
- RQ3샘플링 비율, 효율성 및 표준 LiDAR 벤치마크에서의 탐지 정확도 간의 트레이드오프는 무엇인가?
- RQ4Fore-Mamba3D가 nuScenes, KITTI, Waymo 데이터셋에서 최첨단 LiDAR-전용 탐지기 대비 어떤 성능을 보이는가?
주요 결과
| 방법 | 발표처 | mAP | NDS | Car | Truck | Bus | Trailer | C.V. | Ped. | Motor. | Bike | T.C. | Barrier |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| CenterPoint | CVPR21 | 59.2 | 66.5 | 84.9 | 57.4 | 70.7 | 38.1 | 16.9 | 85.1 | 59.0 | 42.0 | 69.8 | 68.3 |
| TransFusion-L | CVPR22 | 65.5 | 70.1 | 86.9 | 60.8 | 73.1 | 43.4 | 25.2 | 87.5 | 72.9 | 57.3 | 77.2 | 70.3 |
| VoxelNeXt | CVPR23 | 64.5 | 70.0 | 84.6 | 53.0 | 64.7 | 55.8 | 28.7 | 85.8 | 73.2 | 45.7 | 79.0 | 74.6 |
| DSVT | CVPR23 | 66.4 | 71.1 | 87.4 | 62.6 | 75.9 | 42.1 | 25.3 | 88.2 | 74.8 | 58.7 | 77.9 | 71.0 |
| HEDNet | NIPS23 | 66.7 | 71.4 | 87.7 | 60.6 | 77.8 | 50.7 | 28.9 | 87.1 | 74.3 | 56.8 | 76.3 | 66.9 |
| SAFDNet | CVPR24 | 66.3 | 71.0 | 87.6 | 60.8 | 78.0 | 43.5 | 26.6 | 87.8 | 75.5 | 58.0 | 75.0 | 69.7 |
| Voxel-Mamba | NIPS24 | 67.5 | 71.9 | 87.9 | 62.8 | 76.8 | 45.9 | 24.9 | 89.3 | 77.1 | 58.6 | 80.1 | 71.5 |
| LION | NIPS24 | 68.0 | 72.1 | 87.9 | 64.9 | 77.6 | 44.4 | 28.5 | 89.6 | 75.6 | 59.4 | 80.8 | 71.6 |
| Fore-Mamba3D (Ours) | – | 68.4 | 72.3 | 88.4 | 65.2 | 80.3 | 48.0 | 28.2 | 89.3 | 75.7 | 57.7 | 80.0 | 71.2 |
- Fore-Mamba3D는 nuScenes 및 KITTI에서 최첨단 수준의 경쟁력 있는 성능을 달성하며, nuScenes 밸리데이션에서 Fore-Mamba3D의 mAP는 68.4, NDS는 72.3, 테스트에서 70.1 mAP 및 74.0 NDS를 기록했다.
- KITTI에서 Fore-Mamba3D는 경쟁 백본들 중 최첨단 성능을 달성했다(두 번째로 높은 방법 대비 평균 개선).
- Waymo(부분 학습)에서 Fore-Mamba3D는 L1/L2에서 차량/보행자/자전거에 대해 72.2–75.6 AP/APH를 달성, CenterPoint를 포함한 여러 baselines를 능가했다(L2에서).
- 아블레이션 실험은 Hilbert 평면화와 회전, RGSW, SAF, SSF의 조합이 누적 이득을 제공하며, 커널 크기 K=7이 정확도와 효율성 간 최적의 균형을 제공함을 보여준다.
- alpha ≈ 0.2에서의 전경 샘플링은 정확도와 FLOPs의 최적 균형을 제공하며 단일 GPU 테스트에서 LION 대비 FLOPs를 43.7% 감소시키고 FPS를 23.9% 증가시켰다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.