Skip to main content
QUICK REVIEW

[论文解读] End-to-End Multi-View Fusion for 3D Object Detection in LiDAR Point Clouds

Yin Zhou, Pei Sun|arXiv (Cornell University)|Oct 15, 2019
Advanced Neural Network Applications被引用 174
一句话总结

提出一个端到端的多视图融合(MVF)框架,结合动态体素化以融合 BEV 和透视视图,从 LiDAR 实现改进的三维目标检测,在 Waymo 和 KITTI 数据集上超越单视图基线的准确性。

ABSTRACT

Recent work on 3D object detection advocates point cloud voxelization in birds-eye view, where objects preserve their physical dimensions and are naturally separable. When represented in this view, however, point clouds are sparse and have highly variable point density, which may cause detectors difficulties in detecting distant or small objects (pedestrians, traffic signs, etc.). On the other hand, perspective view provides dense observations, which could allow more favorable feature encoding for such cases. In this paper, we aim to synergize the birds-eye view and the perspective view and propose a novel end-to-end multi-view fusion (MVF) algorithm, which can effectively learn to utilize the complementary information from both. Specifically, we introduce dynamic voxelization, which has four merits compared to existing voxelization methods, i) removing the need of pre-allocating a tensor with fixed size; ii) overcoming the information loss due to stochastic point/voxel dropout; iii) yielding deterministic voxel embeddings and more stable detection outcomes; iv) establishing the bi-directional relationship between points and voxels, which potentially lays a natural foundation for cross-view feature fusion. By employing dynamic voxelization, the proposed feature fusion architecture enables each point to learn to fuse context information from different views. MVF operates on points and can be naturally extended to other approaches using LiDAR point clouds. We evaluate our MVF model extensively on the newly released Waymo Open Dataset and on the KITTI dataset and demonstrate that it significantly improves detection accuracy over the comparable single-view PointPillars baseline.

研究动机与目标

  • 激发利用同一 LiDAR 的 BEV 与透视视图之间的互补信息来提升3D目标检测。
  • 构建一个端到端的 MVF 架构,在点级别上实现跨视图特征融合。
  • 引入动态体素化以保留所有点并实现确定性的体素嵌入。
  • 证明在 Waymo Open Dataset 与 KITTI 上,带动态体素化的 MVF 优于单视图基线。

提出的方法

  • 将每个 LiDAR 点嵌入到高维特征空间。
  • 在 BEV(笛卡尔坐标)和透视(球面)视图中应用动态体素化,以建立双向点-体素映射。
  • 使用每个视图的全连接层计算视图相关特征,并通过最大池化聚合体素信息。
  • 将来自以下三者的逐点特征融合:(i) BEV 体素特征,(ii) 透视体素特征,以及 (iii) 点自身特征,生成增强的点嵌入。
  • 用卷积塔处理体素特征图,在保持分辨率的同时捕捉上下文信息。
  • 使用与 SECOND 和 PointPillars 相同的损失进行训练,分类使用 focal 损失,回归使用 SmoothL1;用 Adam 和余弦学习率衰减进行优化。

实验结果

研究问题

  • RQ1同一 LiDAR 点云的双视图(BEV 与透视)表示能否提供互补的上下文信息,从而提升 3D 目标检测?
  • RQ2动态体素化在保留信息和稳定检测方面,是否优于传统的硬体素化?
  • RQ3在大规模和标准基准(Waymo Open Dataset 与 KITTI)的汽车与行人检测任务中,MVF 与单视图基线相比如何?
  • RQ4MVF 方法是否可推广到除所用基线之外的其他基于 LiDAR 的检测器?

主要发现

  • 采用动态体素化的 MVF 在 Waymo 的车辆和行人任务上,一直优于 HV+SV 和 DV+SV 基线的检测准确性。
  • 动态体素化保留所有点和体素,产生确定性的体素嵌入,减少信息损失。
  • 结合 BEV 与透视视图提供互补上下文,在较远距离以及对小型/遮挡对象如行人时收益更大。
  • 在 Waymo 数据集上,MVF 在 BEV 和 3D AP 上均高于 HV+SV 与 DV+SV,覆盖距离区间(0-30m、30-50m以及超过50m)。
  • 在 KITTI 上,MVF 实现有竞争力的 3D 汽车检测性能,在 easy/moderate/hard 设置中超越 HV+SV 与 DV+SV。
  • MVF 相对于基线方法显示出有利的延迟特性,支持实际的实时推理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。