[论文解读] DeepInteraction: 3D Object Detection via Modality Interaction
DeepInteraction 通过多模态交互编码器保留并互相作用模态特定的 LiDAR 与图像表示,并通过多模态预测交互解码器,在 nuScenes 上实现最先进的 3D 目标检测。
Existing top-performance 3D object detectors typically rely on the multi-modal fusion strategy. This design is however fundamentally restricted due to overlooking the modality-specific useful information and finally hampering the model performance. To address this limitation, in this work we introduce a novel modality interaction strategy where individual per-modality representations are learned and maintained throughout for enabling their unique characteristics to be exploited during object detection. To realize this proposed strategy, we design a DeepInteraction architecture characterized by a multi-modal representational interaction encoder and a multi-modal predictive interaction decoder. Experiments on the large-scale nuScenes dataset show that our proposed method surpasses all prior arts often by a large margin. Crucially, our method is ranked at the first position at the highly competitive nuScenes object detection leaderboard.
研究动机与目标
- 激励并克服以融合为基础的多模态 3D 检测的局限性,这些局限可能会丢弃模态特定的优势。
- 提出一个模态交互框架,在整个流程中维护两种模态特定表示。
- 设计一个具备多模态表征交互的编码器和一个具备多模态预测交互的解码器,以最大化跨模态效益。
提出的方法
- 使用两个并行骨干网络提取 LiDAR BEV 和图像透视特征。
- 采用带 MMRI(跨模态对应关系映射与注意力)的多输入-多输出编码器,以及 intra-modal 学习和表示整合。
- 实现一个预测交互解码器(MMPI),在基于图像与激光雷达的对象查询细化之间交替进行,使用来自相应模态表示的 RoI 特征。
- 使用类似 DETR 的集合预测框架进行训练,包括匹配代价和损失。
- 通过测试时增强和模型集成进行评估,以提升 nuScenes 上的性能。
实验结果
研究问题
- RQ1在显式跨模态交互下,保持独立的模态特定表示是否能超越传统的融合表示在 3D 目标检测中的表现?
- RQ2多模态表征交互(MMRI)和多模态预测交互(MMPI)如何在不同对象类别与距离上提升检测精度?
- RQ3编码器/解码器设计以及层数/查询数量对检测性能和推理速度有何影响?
主要发现
| 方法 | 模态 | 骨干网络 | 验证 mAP | 验证 NDS | 测试 mAP | 测试 NDS | ||
|---|---|---|---|---|---|---|---|---|
| BEVDet4D | C | Swin-Base | - | 42.1 | 54.5 | 45.1 | 56.9 | |
| BEVFormer | C | V99 | - | - | 48.1 | 56.9 | ||
| Ego3RT | C | V99 | - | - | 47.8 | 53.4 | 42.5 | 47.9 |
| PolarFormer | C | V99 | - | - | 50.0 | 56.2 | 49.3 | 57.2 |
| CenterPoint | L | - | VoxelNet | 59.6 | 66.8 | 60.3 | 67.3 | |
| Focals Conv | L | - | VoxelNet-FocalsConv | 61.2 | 68.1 | 63.8 | 70.0 | |
| Transfusion-L | L | - | VoxelNet | 65.1 | 70.1 | 65.5 | 70.2 | |
| LargeKernel3D | L | - | VoxelNet-LargeKernel3D | 63.3 | 69.1 | 65.3 | 70.5 | |
| FUTR3D | L+C | R101 | VoxelNet | 64.5 | 68.3 | - | - | |
| PointAugmenting | L+C | DLA34 | VoxelNet | - | - | 66.8 | 71.0 | |
| MVP | L+C | DLA34 | VoxelNet | 67.1 | 70.8 | 66.4 | 70.5 | |
| AutoAlignV2 | L+C | CSPNet | VoxelNet | 67.1 | 71.2 | 68.4 | 72.4 | |
| TransFusion | L+C | R50 | VoxelNet | 67.5 | 71.3 | 68.9 | 71.6 | |
| BEVFusion | L+C | Swin-Tiny | VoxelNet | 67.9 | 71.0 | 69.2 | 71.8 | |
| DeepInteraction-base | L+C | R50 | VoxelNet | 69.9 | 72.6 | 70.8 | 73.4 | |
| Focals Conv-F | L+C | R50 | VoxelNet-FocalsConv | 67.1 | 71.5 | 70.1 | 73.6 | |
| LargeKernel3D-F | L+C | R50 | VoxelNet-LargeKernel | - | - | 71.1 | 74.2 | |
| DeepInteraction-large | L+C | Swin-Tiny | VoxelNet | 72.6 | 74.4 | 74.1 | 75.5 | |
| BEVFusion-e | L+C | Swin-Tiny | VoxelNet | 73.7 | 74.9 | 75.0 | 76.1 | |
| DeepInteraction-e | L+C | Swin-Tiny | VoxelNet | 73.9 | 75.0 | 75.6 | 76.3 |
- 在 nuScenes 的多种设置下达到最先进的结果,包括 DeepInteraction-base、DeepInteraction-large 和 DeepInteraction-e。
- DeepInteraction-base 以 ResNet-50 图像骨干网络实现优于先前方法,甚至超越使用 Swin 骨干的方法。
- DeepInteraction-large 和 DeepInteraction-e 在提交方法中在 nuScenes 排行榜上名列第一,较仅 LiDAR 的基线有显著提升。
- 消融研究显示 MMRI(多模态表征交互)和 MMPI(多模态预测交互)相对模态融合与单模态基线带来显著提升。
- 在 LiDAR 骨干(PointPillars、VoxelNet)中,DeepInteraction 持续提高 mAP 和 NDS,与基于 Transfusion 的方法及其他融合方法相比。
- 按类别分析显示在小型或罕见类别(如自行车、摩托车、交通锥)上获得更大收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。