[论文解读] Center-based 3D Object Detection and Tracking
CenterPoint 将中心(点)表示、检测和跟踪三维对象,而非轴对齐框,从而在 LiDAR 数据上实现简单、快速且处于前沿水平的三维检测和跟踪。两阶段细化进一步提升性能。
Three-dimensional objects are commonly represented as 3D boxes in a point-cloud. This representation mimics the well-studied image-based 2D bounding-box detection but comes with additional challenges. Objects in a 3D world do not follow any particular orientation, and box-based detectors have difficulties enumerating all orientations or fitting an axis-aligned bounding box to rotated objects. In this paper, we instead propose to represent, detect, and track 3D objects as points. Our framework, CenterPoint, first detects centers of objects using a keypoint detector and regresses to other attributes, including 3D size, 3D orientation, and velocity. In a second stage, it refines these estimates using additional point features on the object. In CenterPoint, 3D object tracking simplifies to greedy closest-point matching. The resulting detection and tracking algorithm is simple, efficient, and effective. CenterPoint achieved state-of-the-art performance on the nuScenes benchmark for both 3D detection and tracking, with 65.5 NDS and 63.8 AMOTA for a single model. On the Waymo Open Dataset, CenterPoint outperforms all previous single model method by a large margin and ranks first among all Lidar-only submissions. The code and pretrained models are available at https://github.com/tianweiy/CenterPoint.
研究动机与目标
- 推动基于中心的表示,以克服三维检测中的方向与框拟合挑战。
- 提出一个两阶段的 CenterPoint 检测器,它检测中心并回归到完整的三维姿态、尺寸和速度。
- 引入使用对象面上的点特征的轻量级二阶段细化。
- 展示通过简单的贪心最邻近点匹配实现的端到端三维检测与跟踪。
- 在 Waymo Open Dataset 和 nuScenes 上展示高效推理下的最先进结果。
提出的方法
- 使用标准的三维主干网络(VoxelNet 或 PointPillars)从 LiDAR 数据生成一个地图视图特征图 M。
- 通过密集头在每个中心预测类别特异的中心热图、对象尺寸、亚体素定位、偏航角和速度。
- 使用受 CenterNet 启发的关键点损失以及用于所有对象属性的回归头进行训练。
- 用第二阶段对第一阶段预测进行细化,该阶段从 M 中采样中心-面点特征,并用一个 MLP 处理以输出置信分数和框的细化。
- 通过贪心地将当前检测与前一帧匹配来跟踪,使用预测的 2D 速度来投影中心并进行最近点关联。
实验结果
研究问题
- RQ1在 LiDAR 数据中,与基于锚框的边界框相比,基于中心的表示是否能够简化三维对象检测和跟踪?
- RQ2两阶段的中心点细化是否在最小额外开销的前提下改善三维定位、方向以及速度估计?
- RQ3基于中心的检测在没有重型运动模型的情况下对实时三维跟踪的支持如何?
- RQ4在像 Waymo 和 nuScenes 这样的大规模数据集上,基于中心的检测对性能的影响如何?
- RQ5在对旋转和对象尺寸变化的鲁棒性方面,CenterPoint 相较于基于锚框的方法表现如何?
主要发现
- 基于中心的 CenterPoint 通过用中心点替代轴对齐框来提升三维检测,在不同骨干网络和数据集上获得显著的 mAP/mAPH 提升。
- 带有额外 center-face 特征的两阶段 CenterPoint 在适度开销下带来进一步性能提升(某些设置中 2 阶段细化约增加 6–7 ms)。
- CenterPoint 在 Waymo(Level 2 的车辆 mAPH 和行人 mAPH)和 nuScenes(NDS 和 mAP)上实现了最先进的结果,超过了此前的方法。
- 通过速度感知的贪心最近点匹配的 CenterPoint 跟踪在 AMOTA 上显著优于卡尔曼滤波基线,在 nuScenes 上最高提升达到 8.8 的 AMOTA,Waymo 也有显著提升。
- CenterPoint 运行接近实时(例如 Waymo 上 11 FPS,nuScenes 上 16 FPS),并在尺寸小、旋转较大的对象上保持强劲性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。