QUICK REVIEW

[논문 리뷰] Fore-Mamba3D: Mamba-based Foreground-Enhanced Encoding for 3D Object Detection

Zhiwei Ning, Xuanang Gao|arXiv (Cornell University)|2026. 02. 23.

Advanced Neural Network Applications인용 수 0

한 줄 요약

Fore-Mamba3D는 전경 중심 인코딩과 지역-전역 슬라이딩 윈도우 및 의미 보조 상태 융합을 도입하여 3D 물체 탐지를 향상시키고, nuScenes에서 LiDAR-전용 방법 중 최첨단 성능을 달성하고 KITTI 및 Waymo에서도 강력한 성능을 보여준다.

ABSTRACT

Linear modeling methods like Mamba have been merged as the effective backbone for the 3D object detection task. However, previous Mamba-based methods utilize the bidirectional encoding for the whole non-empty voxel sequence, which contains abundant useless background information in the scenes. Though directly encoding foreground voxels appears to be a plausible solution, it tends to degrade detection performance. We attribute this to the response attenuation and restricted context representation in the linear modeling for fore-only sequences. To address this problem, we propose a novel backbone, termed Fore-Mamba3D, to focus on the foreground enhancement by modifying Mamba-based encoder. The foreground voxels are first sampled according to the predicted scores. Considering the response attenuation existing in the interaction of foreground voxels across different instances, we design a regional-to-global slide window (RGSW) to propagate the information from regional split to the entire sequence. Furthermore, a semantic-assisted and state spatial fusion module (SASFMamba) is proposed to enrich contextual representation by enhancing semantic and geometric awareness within the Mamba model. Our method emphasizes foreground-only encoding and alleviates the distance-based and causal dependencies in the linear autoregression model. The superior performance across various benchmarks demonstrates the effectiveness of Fore-Mamba3D in the 3D object detection task.

연구 동기 및 목표

3D 보셀 시퀀스의 배경 노이즈를 줄이기 위해 전경 중심 인코딩을 동기화하려는 목적.
자가 회귀 Mamba의 응답 감쇠를 완화하기 위해 지역-전역 슬라이딩 윈도우(RGSW)를 개발.
상태 변수의 의미 및 기하학적 맥락을 풍부하게 하기 위한 의미 보조 융합(SAF) 및 상태 공간 융합(SSF)을 도입한 SASFMamba로 맥락 표현 강화.
메모리 및 계산 비용을 줄이면서 탐지 성능 향상.
nuScenes, KITTI, Waymo 벤치마크에서의 효과성 검증

제안 방법

Hilbert 곡선으로 평면화된 시퀀스에서 전경 보셀 점수를 예측하고 상위 k개의 보셀을 전경 특징으로 샘플링합니다.
자가 회귀 Mamba 백본에서 지역 정보를 전역 시퀀스로 전파하기 위해 지역-전역 슬라이딩 윈도우(RGSW)를 적용합니다.
SAF(의미 보조 융합)와 SSF(상태 공간 융합)를 통해 의미적/기하학적 맥락을 상태 변수에 풍부하게 하는 SASFMamba를 도입합니다.
지역적 절단을 완화하기 위해 다중 회전 Hilbert 평면화 방식을 사용하고 회전된 전경 특징을 배경 보셀과 결합합니다.
탐지 헤드에 대해 전경 점수 및 의미 카테고리에 대한 포컬 로스와 함께, L_cls 및 L_reg 로스의 표준 탐지 로스를 사용하여 학습합니다.

실험 결과

연구 질문

RQ1RGSW를 통한 전경 중심 인코딩이 전통적 전 전체 보셀 Mamba 백본 대비 장거리 상호작용을 개선하는가?
RQ2SAF와 SSF가 선형 Mamba 백본의 상태 변수에 의미적 및 기하학적 향상을 제공하는가?
RQ3샘플링 비율, 효율성 및 표준 LiDAR 벤치마크에서의 탐지 정확도 간의 트레이드오프는 무엇인가?
RQ4Fore-Mamba3D가 nuScenes, KITTI, Waymo 데이터셋에서 최첨단 LiDAR-전용 탐지기 대비 어떤 성능을 보이는가?

주요 결과

방법	발표처	mAP	NDS	Car	Truck	Bus	Trailer	C.V.	Ped.	Motor.	Bike	T.C.	Barrier
CenterPoint	CVPR21	59.2	66.5	84.9	57.4	70.7	38.1	16.9	85.1	59.0	42.0	69.8	68.3
TransFusion-L	CVPR22	65.5	70.1	86.9	60.8	73.1	43.4	25.2	87.5	72.9	57.3	77.2	70.3
VoxelNeXt	CVPR23	64.5	70.0	84.6	53.0	64.7	55.8	28.7	85.8	73.2	45.7	79.0	74.6
DSVT	CVPR23	66.4	71.1	87.4	62.6	75.9	42.1	25.3	88.2	74.8	58.7	77.9	71.0
HEDNet	NIPS23	66.7	71.4	87.7	60.6	77.8	50.7	28.9	87.1	74.3	56.8	76.3	66.9
SAFDNet	CVPR24	66.3	71.0	87.6	60.8	78.0	43.5	26.6	87.8	75.5	58.0	75.0	69.7
Voxel-Mamba	NIPS24	67.5	71.9	87.9	62.8	76.8	45.9	24.9	89.3	77.1	58.6	80.1	71.5
LION	NIPS24	68.0	72.1	87.9	64.9	77.6	44.4	28.5	89.6	75.6	59.4	80.8	71.6
Fore-Mamba3D (Ours)	–	68.4	72.3	88.4	65.2	80.3	48.0	28.2	89.3	75.7	57.7	80.0	71.2

Fore-Mamba3D는 nuScenes 및 KITTI에서 최첨단 수준의 경쟁력 있는 성능을 달성하며, nuScenes 밸리데이션에서 Fore-Mamba3D의 mAP는 68.4, NDS는 72.3, 테스트에서 70.1 mAP 및 74.0 NDS를 기록했다.
KITTI에서 Fore-Mamba3D는 경쟁 백본들 중 최첨단 성능을 달성했다(두 번째로 높은 방법 대비 평균 개선).
Waymo(부분 학습)에서 Fore-Mamba3D는 L1/L2에서 차량/보행자/자전거에 대해 72.2–75.6 AP/APH를 달성, CenterPoint를 포함한 여러 baselines를 능가했다(L2에서).
아블레이션 실험은 Hilbert 평면화와 회전, RGSW, SAF, SSF의 조합이 누적 이득을 제공하며, 커널 크기 K=7이 정확도와 효율성 간 최적의 균형을 제공함을 보여준다.
alpha ≈ 0.2에서의 전경 샘플링은 정확도와 FLOPs의 최적 균형을 제공하며 단일 GPU 테스트에서 LION 대비 FLOPs를 43.7% 감소시키고 FPS를 23.9% 증가시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.