Skip to main content
QUICK REVIEW

[论文解读] Voxel-FPN: multi-scale voxel feature aggregation in 3D object detection from point clouds

Bei Wang, Jianping An|arXiv (Cornell University)|Jun 28, 2019
Advanced Neural Network Applications参考文献 25被引用 40
一句话总结

Voxel-FPN 引入了一种单阶段的 3D 目标检测器,利用带底向上编码器和自上而下解码器的多尺度体素特征聚合,从而提升来自 LIDAR 点云的特征提取。

ABSTRACT

Object detection in point cloud data is one of the key components in computer vision systems, especially for autonomous driving applications. In this work, we present Voxel-FPN, a novel one-stage 3D object detector that utilizes raw data from LIDAR sensors only. The core framework consists of an encoder network and a corresponding decoder followed by a region proposal network. Encoder extracts multi-scale voxel information in a bottom-up manner while decoder fuses multiple feature maps from various scales in a top-down way. Extensive experiments show that the proposed method has better performance on extracting features from point data and demonstrates its superiority over some baselines on the challenging KITTI-3D benchmark, obtaining good performance on both speed and accuracy in real-world scenarios.

研究动机与目标

  • 推动对原始 LIDAR 点云在 3D 目标检测中的特征提取的改进。
  • 提出一个基于体素的编码器-解码器框架,具备多尺度特征聚合。
  • 在 KITTI-3D 基准测试上展示相对于基线的优势。
  • 在实际自动驾驶中确保在速度和精度方面的高效性。
  • 强调自下而上的多尺度编码与自上而下的融合的有效性。

提出的方法

  • 开发一个基于体素的编码器,以自下而上的方式提取多尺度体素信息。
  • 创建一个解码器,以自上而下的方式融合来自不同尺度的多尺度特征图。
  • 将编码器–解码器与区域建议网络结合用于单阶段检测。
  • 在 KITTI-3D 基准上评估该方法,以比较速度与基线相比的准确性。
  • 强调仅使用来自 LIDAR 传感器的原始数据。

实验结果

研究问题

  • RQ1与基线相比,多尺度体素特征聚合是否能提升点云的 3D 目标检测?
  • RQ2自下而上的编码器与自上而下的解码器是否能有效融合多尺度体素特征以实现精准的候选框生成?
  • RQ3该方法在 KITTI-3D 的真实世界自动驾驶场景中是否足够高效?
  • RQ4在速度-精度权衡方面,Voxel-FPN 相对于基线的表现如何?

主要发现

  • 所提出的方法在点数据的特征提取方面实现了更好的效果。
  • 在 KITTI-3D 基准测试中对某些基线显示出优越性。
  • 该方法在真实世界场景中实现了速度与精度的平衡。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。