[论文解读] VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
VoxelNet 引入了一个端到端可训练的框架,通过体素化空间、应用体素特征编码,并使用 RPN 预测三维边界框,直接在稀疏的 3D LiDAR 点云上工作,在 KITTI 数据集上无需手工特征即可达到最先进的结果。
Accurate detection of objects in 3D point clouds is a central problem in many applications, such as autonomous navigation, housekeeping robots, and augmented/virtual reality. To interface a highly sparse LiDAR point cloud with a region proposal network (RPN), most existing efforts have focused on hand-crafted feature representations, for example, a bird's eye view projection. In this work, we remove the need of manual feature engineering for 3D point clouds and propose VoxelNet, a generic 3D detection network that unifies feature extraction and bounding box prediction into a single stage, end-to-end trainable deep network. Specifically, VoxelNet divides a point cloud into equally spaced 3D voxels and transforms a group of points within each voxel into a unified feature representation through the newly introduced voxel feature encoding (VFE) layer. In this way, the point cloud is encoded as a descriptive volumetric representation, which is then connected to a RPN to generate detections. Experiments on the KITTI car detection benchmark show that VoxelNet outperforms the state-of-the-art LiDAR based 3D detection methods by a large margin. Furthermore, our network learns an effective discriminative representation of objects with various geometries, leading to encouraging results in 3D detection of pedestrians and cyclists, based on only LiDAR.
研究动机与目标
- 推动基于 LiDAR 的 3D 目标检测,且不使用手工特征。
- 提出一个统一的端到端架构,学习点级和体素级表示。
- 通过引入体素特征编码层,消除手工特征工程的需求。
- 展示仅使用 LiDAR 在 KITTI 的汽车、行人和自行车检测方面达到最新水平。
提出的方法
- 将三维空间划分为规则的体素网格,并按体素对点进行分组。
- 引入体素特征编码(VFE)层,通过结合点级信息和局部聚合信息来学习每个体素的特征。
- 堆叠多个 VFE 层以捕获体素内的交互并产生体素级特征。
- 将非空体素表示为稀疏的四维张量以利用稀疏性并实现高效的 GPU 处理。
- 应用三维卷积中间层以跨体素聚合上下文。
- 附加在密集体素特征图上工作的区域建议网络(RPN),以生成三维检测。
实验结果
研究问题
- RQ1端到端在原始 LiDAR 点上学习是否能超过手工特征方法在 3D 目标检测中的表现?
- RQ2基于体素的特征编码是否能在稀疏点云中实现有效的 3D 形状表示?
- RQ3仅使用 LiDAR 的流水线是否能够在 KITTI 上获得汽车、行人和自行车的最新结果?
- RQ4端到端训练相对于手工基线对 BEV 和 3D 空间检测性能的影响是什么?
主要发现
| 方法 | 模态 | 汽车 易 | 汽车 中 | 汽车 困难 | 行人 易 | 行人 中 | 行人 困难 | 自行车 易 | 自行车 中 | 自行车 困难 |
|---|---|---|---|---|---|---|---|---|---|---|
| HC-baseline | LiDAR | 71.73 | 59.75 | 55.69 | 43.95 | 40.18 | 37.48 | 55.35 | 36.07 | 34.15 |
| VoxelNet | LiDAR | 89.60 | 84.81 | 78.57 | 65.95 | 61.05 | 56.98 | 74.41 | 52.18 | 50.49 |
- VoxelNet 在 KITTI 的汽车检测中,在 3D 和鸟瞰视图 BEV 的易、中、难三个难度等级上,超过了最先进的基于 LiDAR 的 3D 检测方法。
- 在 3D 检测中,VoxelNet 在汽车类别的所有难度等级上都比之前的 LiDAR+RGB 方法 MV 获得更高的 AP。
- 与手工基线相比,VoxelNet 在行人和自行车的 3D 检测中显示出显著更好 的性能,突显端到端学习在 3D 形状表示上的好处。
- KITTI 测试集结果显示 VoxelNet 在鸟瞰视图和 3D 任务上均超越了以往方法,仅使用 LiDAR 数据。
- 一种高效实现利用稀疏体素表示和 GPU 并行堆叠 VFE 层来维持可控的计算时间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。