QUICK REVIEW

[论文解读] HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection

Maosheng Ye, Shuangjie Xu|arXiv (Cornell University)|Feb 29, 2020

Advanced Neural Network Applications参考文献 33被引用 24

一句话总结

HVNet 提出了一种单阶段 3D 目标检测网络，通过混合体素特征编码，将特征提取与特征图投影尺度解耦，实现了高精度与实时推理。通过逐点融合多尺度体素特征，并利用注意力特征编码器和特征融合金字塔将它们投影到动态伪图像特征图上，HVNet 在 KITTI 上实现了 31 Hz 下的最先进 mAP，优于现有的单阶段与双阶段 LiDAR 方法。

ABSTRACT

We present Hybrid Voxel Network (HVNet), a novel one-stage unified network for point cloud based 3D object detection for autonomous driving. Recent studies show that 2D voxelization with per voxel PointNet style feature extractor leads to accurate and efficient detector for large 3D scenes. Since the size of the feature map determines the computation and memory cost, the size of the voxel becomes a parameter that is hard to balance. A smaller voxel size gives a better performance, especially for small objects, but a longer inference time. A larger voxel can cover the same area with a smaller feature map, but fails to capture intricate features and accurate location for smaller objects. We present a Hybrid Voxel network that solves this problem by fusing voxel feature encoder (VFE) of different scales at point-wise level and project into multiple pseudo-image feature maps. We further propose an attentive voxel feature encoding that outperforms plain VFE and a feature fusion pyramid network to aggregate multi-scale information at feature map level. Experiments on the KITTI benchmark show that a single HVNet achieves the best mAP among all existing methods with a real time inference speed of 31Hz.

研究动机与目标

为解决基于 LiDAR 的 3D 目标检测中推理速度与检测精度之间的权衡，尤其是小目标的检测问题。
克服基于体素的网络中固定体素尺寸的局限性，其中小体素增加计算量，而大体素则降低特征细节。
通过将特征提取所用尺度与特征图投影所用尺度解耦，实现高效的多尺度特征学习。
通过注意力体素特征编码器增强特征表示，突出物体形状特征并抑制背景。
在不牺牲 mAP 的前提下实现实时性能（≥31 Hz），尤其针对 Cyclist 和 Pedestrian 等具有挑战性的类别。

提出的方法

HVNet 使用多尺度体素化，将每个点分配到多个不同尺度（例如 0.1m、0.2m、0.4m）的特征提取体素中，实现细粒度的局部特征学习。
混合体素特征编码器为每个点计算尺度特定的特征，并逐点拼接，保留跨尺度的空间细节。
注意力体素特征编码器（AVFE）通过可学习的注意力机制，抑制背景并增强物体区域，从而提升判别性特征。
网络使用独立的投影体素网格，将多尺度逐点特征投影到多个伪图像特征图上，实现特征提取尺度与投影尺度的解耦。
特征融合金字塔网络（FFPN）在伪图像层面聚合多尺度特征，提升检测的上下文表征能力。
主干网络处理融合后的特征图，多类别头结合焦点损失与 NMS 生成最终的 3D 边界框。

实验结果

研究问题

RQ1通过解耦特征提取与投影尺度，统一的单阶段 3D 检测器是否能同时实现高精度与实时推理？
RQ2与单尺度体素化相比，逐点级的多尺度体素特征融合在小目标检测性能上提升程度如何？
RQ3与标准 PointNet 风格的 VFE 相比，注意力体素特征编码器在增强特征表示方面有多大的提升作用？
RQ4在保持实时速度的前提下，为最大化 mAP，特征提取尺度与投影尺度的最佳数量平衡是什么？
RQ5在 KITTI 基准上，所提出的 HVNet 与最先进的一阶段、双阶段及多传感器方法相比，在 mAP 与推理速度方面表现如何？

主要发现

HVNet 在 KITTI 基准上作为所有单阶段 LiDAR 3D 目标检测器中 mAP 最高的模型，优于 PointPillars、SECOND 和 PointRCNN 等方法。
该模型在 2080Ti GPU 上运行速度达到 31 Hz，超过 360° 自主驾驶感知所需的 20 Hz 实时阈值。
在 VFE 层中引入注意力机制使 BEV Moderate 集上的 mAP 提升 2.06 个百分点，证明其在增强特征判别力方面的有效性。
使用三个特征提取尺度（S_T=3）与三个投影尺度（S_R=3）时性能最佳，相比单尺度基线 mAP 提升 2.17 个百分点。
与标准 VFE 相比，采用 HSV 和索引化实现的混合体素特征提取器将推理时间减少 2ms，提升效率且未损失精度。
定性结果表明，即使在遮挡或密集场景中，模型仍表现出鲁棒的检测性能，各类别均生成高质量的 3D 边界框。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。