[论文解读] An Evaluation of Trajectory Prediction Approaches and Notes on the TrajNet Benchmark
本文在 TrajNet 基准测试评估多种深度神经网络用于预测行人轨迹,并识别一个简单的 RNN-Encoder-MLP(RED-predictor)作为有竞争力的基线,而不需要场景线索。
In recent years, there is a shift from modeling the tracking problem based on Bayesian formulation towards using deep neural networks. Towards this end, in this paper the effectiveness of various deep neural networks for predicting future pedestrian paths are evaluated. The analyzed deep networks solely rely, like in the traditional approaches, on observed tracklets without human-human interaction information. The evaluation is done on the publicly available TrajNet benchmark dataset, which builds up a repository of considerable and popular datasets for trajectory-based activity forecasting. We show that a Recurrent-Encoder with a Dense layer stacked on top, referred to as RED-predictor, is able to achieve sophisticated results compared to elaborated models in such scenarios. Further, we investigate failure cases and give explanations for observed phenomena and give some recommendations for overcoming demonstrated shortcomings.
研究动机与目标
- 使用 TrajNet 数据集评估单一轨迹行人路径预测的深度神经网络的有效性。
- 分析数据集属性和噪声,以建立稳健的基线。
- 提出简单的预处理和模型调整,在没有人工干预线索的情况下改善预测。
- 识别失效模式并提供克服局限性的建议。
提出的方法
- 在世界平面的人行数据上比较简单基线(MLP、RNN 变体、TCN)与更复杂的 Seq2Seq 架构。
- 将位移/速度作为输入和输出以稳定学习并反映运动动力学。
- 使用 8 个观测位置进行训练,以预测接下来的 12 个位置,使用 TensorFlow 的 Adam 优化器和均方误差损失。
- 使用 ADE 和 FDE 作为常用轨迹预测指标进行评估。
- 通过样条基平滑来分析数据集噪声以估计地面真实噪声。
- 开发 RED-predictor:在顶部添加密集 MLP 的 RNN-Encoder,以得到最终预测。
实验结果
研究问题
- RQ1在不使用人机交互线索的情况下,使用基线深度网络在 TrajNet World H-H 数据上能够达到的最大预测精度是多少?
- RQ2简单的预处理选择(基于位移的输入、标准化)如何影响预测性能,相较于更复杂的基于交互的模型?
- RQ3简单的 RNN-Encoder-MLP 能否达到与使用社交或场景上下文的精细模型相当的性能?
主要发现
| 方法 | 总体平均值 ↓ | FDE [m] ↓ | ADE [m] ↓ | 参考文献 |
|---|---|---|---|---|
| RED | 0.797 | 1.229 | 0.364 | Ours |
| Social Forces (EWAP) | 0.819 | 1.266 | 0.371 | Helbing and Molnár [15] |
| Social Forces (ATTR) | 0.904 | 1.395 | 0.412 | Helbing and Molnár [15] |
| social lstm_v2 | 1.387 | 2.098 | 0.675 | Alahi et al. [10] |
| social lstm | 1.563 | 2.299 | 0.826 | Alahi et al. [10] |
| social lstm_v3 | 2.874 | 4.323 | 1.424 | Alahi et al. [10] |
| Interactive Gaussian Processes | 1.642 | 1.038 | 2.245 | Ellis et al. [40] |
| Linear Interpolation | 0.894 | 1.359 | 0.429 | |
| Linear MLP (Pos) | 1.041 | 1.592 | 0.491 | |
| Linear MLP (Off) | 0.896 | 1.384 | 0.407 | |
| Non-Linear MLP (Off) | 2.103 | 3.181 | 1.024 | |
| Linear RNN | 0.951 | 1.482 | 0.420 | |
| Non-Linear RNN | 0.841 | 1.300 | 0.381 | |
| Linear RNN-Encoder-MLP | 0.892 | 1.381 | 0.404 | |
| Non-Linear RNN-Encoder-MLP | 0.827 | 1.276 | 0.377 | |
| Linear Seq2Seq | 0.923 | 1.429 | 0.418 | |
| Non-Linear Seq2Seq | 0.860 | 1.331 | 0.390 | |
| TCN | 0.841 | 1.301 | 0.381 | |
| Gated TCN | 0.947 | 1.468 | 0.426 |
- RED-predictor(带密集 MLP 的 RNN-Encoder)在与更精致模型相比中取得了竞争性结果。
- 在各种架构中,预测通常接近线性插值基线,没有明确的单一最佳模型。
- 预测整条路径(而非逐步)有助于减轻序列预测中的误差累积。
- 将位移/速度作为输入比原始位置能提高稳定性和性能。
- RNN-Encoder-MLP 通常优于许多基线,但多种架构表现相近。
- 场景上下文和人际互动可以在单轨迹模型之外进一步提高准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。