[论文解读] BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View
BEVDet 引入了一个模块化的基于 BEV 的三维目标检测框架,具备专门的 BEV 空间增强和 Scale-NMS,在 nuScenes 上在基于视觉的方法中达到最先进的性能,推理速度较快。
Autonomous driving perceives its surroundings for decision making, which is one of the most complex scenarios in visual perception. The success of paradigm innovation in solving the 2D object detection task inspires us to seek an elegant, feasible, and scalable paradigm for fundamentally pushing the performance boundary in this area. To this end, we contribute the BEVDet paradigm in this paper. BEVDet performs 3D object detection in Bird-Eye-View (BEV), where most target values are defined and route planning can be handily performed. We merely reuse existing modules to build its framework but substantially develop its performance by constructing an exclusive data augmentation strategy and upgrading the Non-Maximum Suppression strategy. In the experiment, BEVDet offers an excellent trade-off between accuracy and time-efficiency. As a fast version, BEVDet-Tiny scores 31.2% mAP and 39.2% NDS on the nuScenes val set. It is comparable with FCOS3D, but requires just 11% computational budget of 215.3 GFLOPs and runs 9.2 times faster at 15.6 FPS. Another high-precision version dubbed BEVDet-Base scores 39.3% mAP and 47.2% NDS, significantly exceeding all published results. With a comparable inference speed, it surpasses FCOS3D by a large margin of +9.8% mAP and +10.0% NDS. The source code is publicly available for further research at https://github.com/HuangJunJie2017/BEVDet .
研究动机与目标
- 推动统一的基于 BEV 的自动驾驶三维目标检测,与 BEV 语义分割保持一致。
- 提出一个可模块化的 BEVDet 框架,在重用现有组件的同时提升性能。
- 通过 BEV 空间增强和专门的数据处理策略,解决 BEV 学习中的过拟合问题。
- 开发一个针对 BEV 目标分布的 Scale-NMS 以改进后处理。
提出的方法
- 四模块的 BEVDet 架构:图像视图编码器、视图转换器、BEV 编码器,以及任务特定头部。
- 使用 Lift-Splat-Shoot 的视图变换并结合深度预测来生成 BEV 特征。
- 引入 BEV 空间数据增强策略以正则化 BEV 学习。
- 开发 Scale-NMS 以在 BEV 空间中按类别自适应抑制阈值。
- 基准测试并消融数据增强、BEV 编码器和分辨率对准确性与效率权衡的影响。
实验结果
研究问题
- RQ1BEV 基于的三维目标检测是否能在保持有竞争力的推理速度的同时超越基于图像视图的方法?
- RQ2BEV 特定数据增强和 NMS 策略如何影响 BEVDet 的准确性与鲁棒性?
- RQ3输入分辨率、BEV 分辨率和网络组件对 nuScenes 的检测性能有何影响?
主要发现
- BEVDet-Tiny 在 704×256 输入、15.6 FPS、215.3 GFLOPs 下获得 31.2% mAP 和 39.2% NDS,相较于在同等预算下的 FCOS3D 具有优势。
- BEVDet-Base 在 1600×640 输入、2962.6 GFLOPs 下达到 39.3% mAP 和 47.2% NDS,同时保持有竞争力的速度(1.9 FPS)。
- Scale-NMS 显著提升,特别是对小目标(行人 +4.8% AP,交通锥 +7.5% AP),使总体 mAP 从 29.5% 提升到 31.2%。
- BEV-space augmentation(BDA)结合图像空间增强(IDA)显著提升峰值性能(最高可达 31.6% mAP)并稳定训练。
- 在 nuScenes 测试集上,BEVDet 实现 42.2% mAP 和 48.2% NDS,位居视觉基础方法第一,且接近激光雷达基准性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。