[论文解读] LXL: LiDAR Excluded Lean 3D Object Detection With 4D Imaging Radar and Camera Fusion
本文提出 LXL,一种无需 LiDAR 的 3D 目标检测框架,通过创新的“雷达占用辅助的基于深度的采样”策略,融合 4D 成像雷达与相机数据。通过利用预测的图像深度分布图与雷达 3D 占用网格,LXL 提升了视角变换的准确性,在 VoD 与 TJ4DRadSet 数据集上实现了最先进性能,且无需 LiDAR 或复杂组件。
As an emerging technology and a relatively affordable device, the 4D imaging radar has already been confirmed effective in performing 3D object detection in autonomous driving. Nevertheless, the sparsity and noisiness of 4D radar point clouds hinder further performance improvement, and in-depth studies about its fusion with other modalities are lacking. On the other hand, as a new image view transformation strategy, "sampling" has been applied in a few image-based detectors and shown to outperform the widely applied "depth-based splatting" proposed in Lift-Splat-Shoot (LSS), even without image depth prediction. However, the potential of "sampling" is not fully unleashed. This paper investigates the "sampling" view transformation strategy on the camera and 4D imaging radar fusion-based 3D object detection. LiDAR Excluded Lean (LXL) model, predicted image depth distribution maps and radar 3D occupancy grids are generated from image perspective view (PV) features and radar bird's eye view (BEV) features, respectively. They are sent to the core of LXL, called "radar occupancy-assisted depth-based sampling", to aid image view transformation. We demonstrated that more accurate view transformation can be performed by introducing image depths and radar information to enhance the "sampling" strategy. Experiments on VoD and TJ4DRadSet datasets show that the proposed method outperforms the state-of-the-art 3D object detection methods by a significant margin without bells and whistles. Ablation studies demonstrate that our method performs the best among different enhancement settings.
研究动机与目标
- 解决 3D 目标检测中 4D 雷达点云稀疏且噪声多的问题。
- 克服现有视角变换方法(如 'splatting')在远距离性能上的局限性。
- 探索 '采样' 作为图像到鸟瞰图(BEV)特征变换中对 '基于深度的 splatting' 的更优替代方案的潜力。
- 通过整合雷达 3D 占用网格与基于图像的深度预测,提升多模态融合效果。
- 开发一种轻量化、高效且精确的无 LiDAR 3D 目标检测系统,适用于成本敏感的自动驾驶场景。
提出的方法
- 提出一种新颖的视角变换策略:'雷达占用辅助的基于深度的采样',结合图像深度分布图与雷达 3D 占用网格。
- 利用深度头从图像视角特征(PV features)生成预测的图像深度分布图。
- 使用轻量级占用网络直接在雷达鸟瞰图(BEV)坐标系中生成雷达 3D 占用网格。
- 利用图像深度与雷达占用信息的融合结果,在 BEV 变换过程中引导特征采样,确保更优的空间对齐。
- 在 BEV 空间中对雷达 3D 占用网格高效地应用稀疏卷积操作。
- 将变换后的特征整合到 3D 检测头中,实现端到端的无 LiDAR 3D 目标检测。
实验结果
研究问题
- RQ1在相机与 4D 雷达融合中,'采样' 是否能优于 'splatting' 的图像到 BEV 特征变换?
- RQ2在视角变换中,整合雷达 3D 占用网格在多大程度上提升了基于深度的采样精度?
- RQ3仅使用 4D 雷达与相机数据,无 LiDAR 的系统在 3D 目标检测中能达到多高的性能水平?
- RQ4在视角变换中,基于深度监督与基于占用网格的雷达融合在性能上存在何种权衡?
- RQ5在传感器数据有限的情况下,简单而有效的融合策略是否能超越复杂、多阶段的架构?
主要发现
- 所提出的 '雷达占用辅助的基于深度的采样' 策略在 VoD 与 TJ4DRadSet 数据集上显著优于 'splatting' 及其他雷达融合方法。
- 该方法在无 LiDAR 的情况下实现了 3D 目标检测的最先进性能,证明了无 LiDAR 系统的可行性。
- 消融实验证实,图像深度图与雷达 3D 占用网格的结合为采样策略提供了最有效的增强。
- 在所有距离范围中,'采样' 方法在 EAA AP 指标上始终优于 'splatting',尤其在远距离检测中,'splatting' 受限于稀疏性而表现更差。
- 基于雷达点云真值深度分配的雷达辅助深度监督方法因雷达噪声与稀疏性而难以有效收敛。
- '3D 占用网格(CRN)' 替代方法因计算成本更高且对稀疏雷达数据更敏感,表现不如 LXL,而 LXL 在保持更高精度的同时具备更优的速度表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。