Skip to main content
QUICK REVIEW

[논문 리뷰] Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object Detection

Zhiwei Ning, Xuanang Gao|arXiv (Cornell University)|2026. 02. 23.
Advanced Neural Network Applications인용 수 0
한 줄 요약

Fore-Mamba3D는 전경 중심 인코딩과 지역-전역 슬라이딩 윈도우 및 의미 보조 상태 융합을 도입하여 3D 물체 탐지를 향상시키고, nuScenes에서 LiDAR-전용 방법 중 최첨단 성능을 달성하고 KITTI 및 Waymo에서도 강력한 성능을 보여준다.

ABSTRACT

Linear modeling methods like Mamba have been merged as the effective backbone for the 3D object detection task. However, previous Mamba-based methods utilize the bidirectional encoding for the whole non-empty voxel sequence, which contains abundant useless background information in the scenes. Though directly encoding foreground voxels appears to be a plausible solution, it tends to degrade detection performance. We attribute this to the response attenuation and restricted context representation in the linear modeling for fore-only sequences. To address this problem, we propose a novel backbone, termed Fore-Mamba3D, to focus on the foreground enhancement by modifying Mamba-based encoder. The foreground voxels are first sampled according to the predicted scores. Considering the response attenuation existing in the interaction of foreground voxels across different instances, we design a regional-to-global slide window (RGSW) to propagate the information from regional split to the entire sequence. Furthermore, a semantic-assisted and state spatial fusion module (SASFMamba) is proposed to enrich contextual representation by enhancing semantic and geometric awareness within the Mamba model. Our method emphasizes foreground-only encoding and alleviates the distance-based and causal dependencies in the linear autoregression model. The superior performance across various benchmarks demonstrates the effectiveness of Fore-Mamba3D in the 3D object detection task.

연구 동기 및 목표

  • 3D 보셀 시퀀스의 배경 노이즈를 줄이기 위해 전경 중심 인코딩을 동기화하려는 목적.
  • 자가 회귀 Mamba의 응답 감쇠를 완화하기 위해 지역-전역 슬라이딩 윈도우(RGSW)를 개발.
  • 상태 변수의 의미 및 기하학적 맥락을 풍부하게 하기 위한 의미 보조 융합(SAF) 및 상태 공간 융합(SSF)을 도입한 SASFMamba로 맥락 표현 강화.
  • 메모리 및 계산 비용을 줄이면서 탐지 성능 향상.
  • nuScenes, KITTI, Waymo 벤치마크에서의 효과성 검증

제안 방법

  • Hilbert 곡선으로 평면화된 시퀀스에서 전경 보셀 점수를 예측하고 상위 k개의 보셀을 전경 특징으로 샘플링합니다.
  • 자가 회귀 Mamba 백본에서 지역 정보를 전역 시퀀스로 전파하기 위해 지역-전역 슬라이딩 윈도우(RGSW)를 적용합니다.
  • SAF(의미 보조 융합)와 SSF(상태 공간 융합)를 통해 의미적/기하학적 맥락을 상태 변수에 풍부하게 하는 SASFMamba를 도입합니다.
  • 지역적 절단을 완화하기 위해 다중 회전 Hilbert 평면화 방식을 사용하고 회전된 전경 특징을 배경 보셀과 결합합니다.
  • 탐지 헤드에 대해 전경 점수 및 의미 카테고리에 대한 포컬 로스와 함께, L_cls 및 L_reg 로스의 표준 탐지 로스를 사용하여 학습합니다.

실험 결과

연구 질문

  • RQ1RGSW를 통한 전경 중심 인코딩이 전통적 전 전체 보셀 Mamba 백본 대비 장거리 상호작용을 개선하는가?
  • RQ2SAF와 SSF가 선형 Mamba 백본의 상태 변수에 의미적 및 기하학적 향상을 제공하는가?
  • RQ3샘플링 비율, 효율성 및 표준 LiDAR 벤치마크에서의 탐지 정확도 간의 트레이드오프는 무엇인가?
  • RQ4Fore-Mamba3D가 nuScenes, KITTI, Waymo 데이터셋에서 최첨단 LiDAR-전용 탐지기 대비 어떤 성능을 보이는가?

주요 결과

방법발표처mAPNDSCarTruckBusTrailerC.V.Ped.Motor.BikeT.C.Barrier
CenterPointCVPR2159.266.584.957.470.738.116.985.159.042.069.868.3
TransFusion-LCVPR2265.570.186.960.873.143.425.287.572.957.377.270.3
VoxelNeXtCVPR2364.570.084.653.064.755.828.785.873.245.779.074.6
DSVTCVPR2366.471.187.462.675.942.125.388.274.858.777.971.0
HEDNetNIPS2366.771.487.760.677.850.728.987.174.356.876.366.9
SAFDNetCVPR2466.371.087.660.878.043.526.687.875.558.075.069.7
Voxel-MambaNIPS2467.571.987.962.876.845.924.989.377.158.680.171.5
LIONNIPS2468.072.187.964.977.644.428.589.675.659.480.871.6
Fore-Mamba3D (Ours)68.472.388.465.280.348.028.289.375.757.780.071.2
  • Fore-Mamba3D는 nuScenes 및 KITTI에서 최첨단 수준의 경쟁력 있는 성능을 달성하며, nuScenes 밸리데이션에서 Fore-Mamba3D의 mAP는 68.4, NDS는 72.3, 테스트에서 70.1 mAP 및 74.0 NDS를 기록했다.
  • KITTI에서 Fore-Mamba3D는 경쟁 백본들 중 최첨단 성능을 달성했다(두 번째로 높은 방법 대비 평균 개선).
  • Waymo(부분 학습)에서 Fore-Mamba3D는 L1/L2에서 차량/보행자/자전거에 대해 72.2–75.6 AP/APH를 달성, CenterPoint를 포함한 여러 baselines를 능가했다(L2에서).
  • 아블레이션 실험은 Hilbert 평면화와 회전, RGSW, SAF, SSF의 조합이 누적 이득을 제공하며, 커널 크기 K=7이 정확도와 효율성 간 최적의 균형을 제공함을 보여준다.
  • alpha ≈ 0.2에서의 전경 샘플링은 정확도와 FLOPs의 최적 균형을 제공하며 단일 GPU 테스트에서 LION 대비 FLOPs를 43.7% 감소시키고 FPS를 23.9% 증가시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.