[论文解读] StarNet: Pedestrian Trajectory Prediction using Deep Neural Network in Star Topology
StarNet 提出了一种星型拓扑的深度神经网络用于行人轨迹预测,通过一个中心化的枢纽网络来建模所有行人间的集体交互作用,并使用多个主网络分别预测个体轨迹。该设计实现了最先进(SOTA)的预测精度,并且推理速度比以往方法快 3–51 倍,通过线性计算复杂度高效捕捉了复杂的非成对交互作用。
Pedestrian trajectory prediction is crucial for many important applications. This problem is a great challenge because of complicated interactions among pedestrians. Previous methods model only the pairwise interactions between pedestrians, which not only oversimplifies the interactions among pedestrians but also is computationally inefficient. In this paper, we propose a novel model StarNet to deal with these issues. StarNet has a star topology which includes a unique hub network and multiple host networks. The hub network takes observed trajectories of all pedestrians to produce a comprehensive description of the interpersonal interactions. Then the host networks, each of which corresponds to one pedestrian, consult the description and predict future trajectories. The star topology gives StarNet two advantages over conventional models. First, StarNet is able to consider the collective influence among all pedestrians in the hub network, making more accurate predictions. Second, StarNet is computationally efficient since the number of host network is linear to the number of pedestrians. Experiments on multiple public datasets demonstrate that StarNet outperforms multiple state-of-the-arts by a large margin in terms of both accuracy and efficiency.
研究动机与目标
- 为解决现有行人轨迹预测模型仅建模成对交互作用的局限性,此类方法过于简化了真实世界中的集体动态行为。
- 通过捕捉人群内所有行人之间的全面、集体性交互作用,提升预测精度。
- 通过将交互计算复杂度从二次方降低至线性,提升计算效率,从而实现与行人数量呈线性关系的计算复杂度。
- 开发一种可扩展的深度学习架构,使其在各种复杂人群场景中均保持高性能。
- 在基准数据集上展示优于现有最先进模型的性能,涵盖预测精度与推理速度两方面。
提出的方法
- StarNet 采用星型拓扑结构,包含一个中心枢纽网络和多个与单个行人关联的主网络。
- 枢纽网络处理所有行人的观测轨迹,生成一个统一、全面的时空表征 r,用于表征人与人之间的交互作用。
- 每个主网络利用共享表征 r 来条件化预测单个行人的未来轨迹,从而实现实时上下文感知与交互感知的轨迹预测。
- 模型采用编码器-解码器架构,并在主网络中引入注意力机制,以加权相关的历史运动与交互特征。
- 枢纽网络通过端到端方式训练,用于编码联合交互作用;主网络则通过条件化 r 和个体轨迹来训练预测未来轨迹。
- 该架构确保计算复杂度与行人数量呈线性关系,而非成对交互模型中的二次方复杂度。
实验结果
研究问题
- RQ1在人群中的所有行人之间建模集体交互作用,是否能比仅建模成对交互作用带来更准确的轨迹预测?
- RQ2一个中心化的枢纽网络是否能以计算高效的方式有效表征复杂、多人群交互作用?
- RQ3星型拓扑的深度学习架构是否能在准确率与推理速度两方面均优于现有最先进模型?
- RQ4该模型在具有不同交互模式的多样化复杂人群场景中是否表现出足够的鲁棒性?
- RQ5该模型在真实场景中对多模态轨迹分布的建模能力如何?
主要发现
- StarNet 在 ETH 和 UCY 数据集上均实现了最低的平均位移误差(ADE)与最终位移误差(FDE),优于 Social LSTM、Social GAN 和 Social Attention 模型。
- 在 ETH 数据集上,与次优基线模型 Social Attention 相比,StarNet 将 ADE 降低 15.2%,FDE 降低 18.4%。
- StarNet 的推理时间仅为 0.073 秒,比 Social Attention 快 51 倍,比 Social LSTM 快 7 倍,且参数量仅 31.9K。
- 该模型在不同场景下的 ADE 与 FDE 变异度更低,表明其对场景特异性交互模式具有更强鲁棒性。
- 定性结果表明,即使在涉及避碰与群体移动的复杂场景中,StarNet 仍能预测出合理且不发生碰撞的轨迹。
- 尽管在多模态场景中存在少数失败案例(如路径分叉),预测轨迹仍保持合理,表明模型对不确定性的有效建模。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。