QUICK REVIEW

[논문 리뷰] DeepInteraction: 3D Object Detection via Modality Interaction

Zeyu Yang, Jiaqi Chen|arXiv (Cornell University)|2022. 08. 23.

Advanced Neural Network Applications인용 수 65

한 줄 요약

DeepInteraction은 멀티모달 인터랙션 인코더와 멀티-modal 예측 인터랙션 디코더를 통해 모달리티별 LiDAR 및 이미지 표현을 보존하고 상호 작용하며, nuScenes에서 3D 객체 탐지의 최첨단 성능을 달성합니다.

ABSTRACT

Existing top-performance 3D object detectors typically rely on the multi-modal fusion strategy. This design is however fundamentally restricted due to overlooking the modality-specific useful information and finally hampering the model performance. To address this limitation, in this work we introduce a novel modality interaction strategy where individual per-modality representations are learned and maintained throughout for enabling their unique characteristics to be exploited during object detection. To realize this proposed strategy, we design a DeepInteraction architecture characterized by a multi-modal representational interaction encoder and a multi-modal predictive interaction decoder. Experiments on the large-scale nuScenes dataset show that our proposed method surpasses all prior arts often by a large margin. Crucially, our method is ranked at the first position at the highly competitive nuScenes object detection leaderboard.

연구 동기 및 목표

퓨전 기반의 멀티모달 3D 탐지가 모달리티별 강점을 버릴 수 있는 한계를 동기부여하고 극복한다.
파이프라인 전체에서 두 모달리티별 표현을 유지하는 모달리티 상호작용 프레임워크를 제안한다.
교차 모달 이점을 극대화하기 위해 멀티-modal 표현 상호작용을 갖춘 인코더와 멀티-modal 예측 상호작용을 갖춘 디코더를 설계한다.

제안 방법

LiDAR BEV와 이미지 원근 특징을 추출하기 위해 두 개의 병렬 백본을 사용한다.
MMRI(교차 모달 대응 매핑 및 주의) 및 인-트라-모달 학습과 표현 통합을 포함한 다중 입력-다중 출력 인코더를 적용한다.
RoI 특징을 해당 모달 표현으로부터 활용하여 객체 질의의 이미지- 및 LiDAR-가이드 업데이트를 번갈아 수행하는 예측 상호작용 디코더(MMPI)를 구현한다.
매칭 비용 및 손실을 포함하는 DETR과 유사한 세트 예측 프레임워크로 학습한다.
nuScenes에서의 성능 향상을 위해 테스트 시간 증강 및 모델 앙상블로 평가한다.

실험 결과

연구 질문

RQ1명시적인 교차 모달 상호작용을 가진 모달리티별 표현을 별도로 유지하는 것이 3D 객체 탐지에서 전통적인 융합 표현보다 더 나은가?
RQ2MMRI와 MMPI가 객체 범주 및 거리 전반에 걸쳐 탐지 정확도에 how contribute하는가?
RQ3인코더/디코더 설계 및 레이어/쿼리 수가 탐지 성능 및 추론 속도에 어떤 영향을 미치는가?

주요 결과

방법	모달리티	백본	검증 mAP	검증 NDS	테스트 mAP	테스트 NDS
BEVDet4D	C	Swin-Base	-	42.1	54.5	45.1	56.9
BEVFormer	C	V99	-	-	48.1	56.9
Ego3RT	C	V99	-	-	47.8	53.4	42.5	47.9
PolarFormer	C	V99	-	-	50.0	56.2	49.3	57.2
CenterPoint	L	-	VoxelNet	59.6	66.8	60.3	67.3
Focals Conv	L	-	VoxelNet-FocalsConv	61.2	68.1	63.8	70.0
Transfusion-L	L	-	VoxelNet	65.1	70.1	65.5	70.2
LargeKernel3D	L	-	VoxelNet-LargeKernel3D	63.3	69.1	65.3	70.5
FUTR3D	L+C	R101	VoxelNet	64.5	68.3	-	-
PointAugmenting	L+C	DLA34	VoxelNet	-	-	66.8	71.0
MVP	L+C	DLA34	VoxelNet	67.1	70.8	66.4	70.5
AutoAlignV2	L+C	CSPNet	VoxelNet	67.1	71.2	68.4	72.4
TransFusion	L+C	R50	VoxelNet	67.5	71.3	68.9	71.6
BEVFusion	L+C	Swin-Tiny	VoxelNet	67.9	71.0	69.2	71.8
DeepInteraction-base	L+C	R50	VoxelNet	69.9	72.6	70.8	73.4
Focals Conv-F	L+C	R50	VoxelNet-FocalsConv	67.1	71.5	70.1	73.6
LargeKernel3D-F	L+C	R50	VoxelNet-LargeKernel	-	-	71.1	74.2
DeepInteraction-large	L+C	Swin-Tiny	VoxelNet	72.6	74.4	74.1	75.5
BEVFusion-e	L+C	Swin-Tiny	VoxelNet	73.7	74.9	75.0	76.1
DeepInteraction-e	L+C	Swin-Tiny	VoxelNet	73.9	75.0	75.6	76.3

DeepInteraction-base, DeepInteraction-large, DeepInteraction-e를 포함한 여러 설정에서 nuScenes에서 최첨단 결과를 달성한다.
ResNet-50 이미지 백본으로도 DeepInteraction-base가 이전 연구를 능가하며 Swin 백본을 사용하는 방법과 비교해서도 우수하다.
DeepInteraction-large 및 DeepInteraction-e는 제출된 방법들 중 nuScenes 리더보드에서 1위를 달성했으며 LiDAR 전용 기준선 대비 눈에 띄는 이득을 보인다.
ablation에서 MMRI(멀티모달 표현 상호작용)와 MMPI(멀티모달 예측 상호작용)가 모달리티 융합 및 단일 모달 기준선보다 명확한 이점을 제공한다.
LiDAR 백본(PointPillars, VoxelNet) 간에 DeepInteraction은 Transfusion 기반 및 기타 융합 방법과 비교하여 일관되게 mAP 및 NDS를 향상시킨다.
범주별 분석에서 소형 또는 희귀 카테고리(예: 자전거, 오토바이, 교통원)가 더 큰 이점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.