[论文解读] Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net
FaF 提出一个端到端的单一3D卷积神经网络,能够从 BEV体素化点云中联合检测、跟踪和预测运动,运行时长可达 30 ms,并超过现有方法。
In this paper we propose a novel deep neural network that is able to jointly reason about 3D detection, tracking and motion forecasting given data captured by a 3D sensor. By jointly reasoning about these tasks, our holistic approach is more robust to occlusion as well as sparse data at range. Our approach performs 3D convolutions across space and time over a bird's eye view representation of the 3D world, which is very efficient in terms of both memory and computation. Our experiments on a new very large scale dataset captured in several north american cities, show that we can outperform the state-of-the-art by a large margin. Importantly, by sharing computation we can perform all tasks in as little as 30 ms.
研究动机与目标
- 推动面向3D检测、跟踪和运动预测的整体方法,以提高对遮挡和稀疏数据的鲁棒性。
- 开发一个单阶段的端到端网络,利用时序 BEV 表示来完成联合任务。
- 展示跨任务共享计算可以实现实时性能和精度提升。
提出的方法
- 将 3D LiDAR 数据表示为 BEV 体素网格,并对高度维作为通道应用 2D 卷积以实现单帧处理,避免稀疏浪费。
- 通过将时序体素网格堆叠成 4D 张量来扩展到多帧,并比较早融合和晚融合的时序聚合方案。
- 在 BEV 中使用 SSD 风格的多框预测,含预定义锚框,预测框的位置、尺度和航向(正弦/余弦),采用平滑 L1 损失。
- 通过将当前检测与过去的未来预测聚合来解码轨迹段,以在遮挡穿越时形成鲁棒的轨迹 ID。
- 使用联合损失进行训练,将当前帧和未来帧的分类与回归项结合在一起(n 帧预测)。
- 在大规模、城市尺度的激光雷达数据集上对检测、跟踪和运动预测进行联合评估。
实验结果
研究问题
- RQ1一个端到端的单一3D CNN 是否能够从多帧 LiDAR BEV 表示中联合检测、跟踪和预测运动?
- RQ2在检测、跟踪和预测之间共享计算是否在达到实时延迟目标的同时提高对遮挡和远距离稀疏的鲁棒性?
- RQ3早融合和晚融合的时间策略在准确性和效率方面有何比较?
- RQ4与最先进基线相比,使用 FaF 在检测 mAP、跟踪指标和短期预测误差方面的定量增益是多少?
主要发现
- FaF 的检测 mAP 高于改为 3D 的 2D 检测器,且延迟相当或更快,在 IoU 0.7 时超越基线。
- 消融研究显示晚融合比早融合提升了约+1.4% mAP,在 IoU 0.7 的单帧检测基础上加入未来帧预测,mAP 提升约+6 个百分点。
- 跟踪表现相对匈牙利基线在 MOTA 提升 6%,Mostly-Tracked (MT) 提升 20%。
- 运动预测在10帧前瞻预测的平均L2误差低于0.33米。
- FaF 运行时间最短仅 30 ms,使自动驾驶中的实时联合检测、跟踪和预测成为可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。