[论文解读] Inverting the Pose Forecasting Pipeline with SPF2: Sequential Pointcloud Forecasting for Sequential Pose Forecasting
本文提出 SPF2,一种新颖的先预测后检测的流水线,通过首先使用 SPFNet(一种基于 LSTM 的自编码器,采用距离图表示)对 3D 点云进行预测,然后在预测的点云上进行目标检测/跟踪,从而将传统的先检测后预测方法反转。该方法仅使用无标签数据即实现了最先进(SOTA)的轨迹预测性能,即使在使用 20 个随机样本的情况下,也优于传统先检测后预测的基线方法,证明了传感器级预测可实现可扩展、标签高效的位姿预测。
Many autonomous systems forecast aspects of the future in order to aid decision-making. For example, self-driving vehicles and robotic manipulation systems often forecast future object poses by first detecting and tracking objects. However, this detect-then-forecast pipeline is expensive to scale, as pose forecasting algorithms typically require labeled sequences of object poses, which are costly to obtain in 3D space. Can we scale performance without requiring additional labels? We hypothesize yes, and propose inverting the detect-then-forecast pipeline. Instead of detecting, tracking and then forecasting the objects, we propose to first forecast 3D sensor data (e.g., point clouds with $100$k points) and then detect/track objects on the predicted point cloud sequences to obtain future poses, i.e., a forecast-then-detect pipeline. This inversion makes it less expensive to scale pose forecasting, as the sensor data forecasting task requires no labels. Part of this work's focus is on the challenging first step -- Sequential Pointcloud Forecasting (SPF), for which we also propose an effective approach, SPFNet. To compare our forecast-then-detect pipeline relative to the detect-then-forecast pipeline, we propose an evaluation procedure and two metrics. Through experiments on a robotic manipulation dataset and two driving datasets, we show that SPFNet is effective for the SPF task, our forecast-then-detect pipeline outperforms the detect-then-forecast approaches to which we compared, and that pose forecasting performance improves with the addition of unlabeled data.
研究动机与目标
- 通过反转标准的先检测后预测流水线,解决自动驾驶系统中 3D 目标位姿序列标注成本过高的问题。
- 提出序列点云预测(SPF)作为一项新的无监督预训练任务,利用大规模无标签点云序列。
- 开发 SPFNet,一种基于距离图和 LSTM 自编码器的深度学习模型,用于准确的序列 3D 点云预测。
- 设计一种新型评估协议,可在真实部署条件下实现对先预测后检测与先检测后预测流水线的公平、端到端比较。
- 证明在传感器级别进行预测可提升下游位姿预测性能,且无需额外标注数据。
提出的方法
- SPFNet 使用基于 LSTM 的自编码器,从历史序列预测未来 3D 点云序列,同时利用场景的几何结构。
- 通过距离图表示处理点云,使 2D CNN 能够有效运作,同时保留 3D 空间关系。
- SPF2 流水线首先使用 SPFNet 预测完整场景的点云,然后应用现成的 3D 检测器和跟踪器提取未来的对象位姿。
- 引入一种新颖的评估流程,通过 ADE 阈值匹配预测轨迹与真实轨迹,实现基于召回率的 ADE/FDE 指标平均。
- 该方法在真实世界数据集上进行训练和评估:KITTI、nuScenes(驾驶场景)和 Baxter(机器人操作),仅使用原始 LiDAR 和深度点云。
实验结果
研究问题
- RQ1与传统先检测后预测的流水线相比,是否可以通过在检测和跟踪前先预测 3D 传感器数据(点云)来提升下游位姿预测性能?
- RQ2在大规模无标签点云序列上训练预测模型,是否能提升位姿预测任务中的泛化能力和性能?
- RQ3即使仅使用单一确定性预测,先预测后检测的流水线是否仍能超越使用 20 个样本的随机性先检测后预测模型?
- RQ4当部署时无法获得真实历史轨迹,如何公平评估端到端感知与预测流水线?
- RQ5序列点云预测(SPF)是否是下游 3D 运动预测任务中一种可行且有效的预训练任务?
主要发现
- SPFNet 在包括 KITTI、nuScenes 和 Baxter 机器人数据集在内的多样化数据集上均表现出强大的序列点云预测性能,证明了其在不同领域间的泛化能力。
- 在 KITTI 数据集上,SPF2 使用 1 个样本即达到 AADE 0.317,优于所有先检测后预测的基线方法,包括使用 20 个随机样本的方法。
- 在 nuScenes 数据集上,SPF2 使用 1 个样本即达到 AADE 0.821,显著优于次优方法(Social-GAN)的 AADE 1.117。
- 所提出的评估协议通过在不同召回率水平下对 ADE/FDE 进行平均,成功实现了公平比较,解决了推理时轨迹对应缺失的问题。
- 结果表明,使用无标签数据可提升位姿预测性能,验证了先预测后检测范式的可扩展性和有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。