[论文解读] An Empirical Experiment on Deep Learning Models for Predicting Traffic Data
本文在相同实验条件下,使用七个公开数据集对八种最先进的深度学习模型在交通速度与流量预测任务中进行了全面且标准化的评估。结果表明,Graph-WaveNet 在平均准确率方面表现最佳,而 GMAN 在长期预测中表现更优;两种模型在交通突变区间也展现出更强的鲁棒性,凸显了在动态条件下评估模型对实际部署的重要性。
To tackle ever-increasing city traffic congestion problems, researchers have proposed deep learning models to aid decision-makers in the traffic control domain. Although the proposed models have been remarkably improved in recent years, there are still questions that need to be answered before deploying models. For example, it is difficult to figure out which models provide state-of-the-art performance, as recently proposed models have often been evaluated with different datasets and experiment environments. It is also difficult to determine which models would work when traffic conditions change abruptly (e.g., rush hour). In this work, we conduct two experiments to answer the two questions. In the first experiment, we conduct an experiment with the state-of-the-art models and the identical public datasets to compare model performance under a consistent experiment environment. We then extract a set of temporal regions in the datasets, whose speeds change abruptly and use these regions to explore model performance with difficult intervals. The experiment results indicate that Graph-WaveNet and GMAN show better performance in general. We also find that prediction models tend to have varying performances with data and intervals, which calls for in-depth analysis of models on difficult intervals for real-world deployment.
研究动机与目标
- 为解决由于数据集和评估环境不一致而导致的交通预测深度学习模型比较困难的问题。
- 不仅评估模型在平均准确率上的表现,还评估其在交通状态发生突变的时段(对实际应用至关重要)的表现。
- 在准确率、推理时间以及在动态交通模式下的鲁棒性方面,对最先进模型进行直接且公平的比较。
- 识别模型在不同交通动态下的优劣势,特别是在交通事故或高峰时段等非周期性事件期间的表现。
提出的方法
- 本研究使用七个公开交通数据集——METR-LA、PeMS-BAY 及五个 PeMS 数据集——进行速度与流量预测,确保数据预处理和评估协议的一致性。
- 评估了八种最先进模型:STGCN、DCRNN、ASTGCN、ST-MetaNet、Graph-WaveNet、STG2Seq、STS-GCN 和 GMAN,所有模型均在相同的计算环境中进行训练与测试。
- 通过 30 分钟移动标准差方法提取困难区间,以识别速度与流量出现大幅波动的时段,代表交通状态的突变。
- 性能通过 MAE、RMSE 和 MAPE 在多个预测时延(如 15、30、60 分钟预测)上进行衡量,重点关注模型在动态条件下的鲁棒性。
- 实验包括全测试集评估与区间特定评估,以比较模型在稳定与突变交通动态下的行为差异。
- 性能下降通过困难区间上 MAE 相对于平均性能的相对增长率进行量化,从而实现模型鲁棒性的可比性。
实验结果
研究问题
- RQ1在标准化条件下,哪种深度学习模型在多样化交通数据集上的平均预测准确率最高?
- RQ2模型在交通状态发生突变的区间(如因事故导致的速度骤降)表现如何?
- RQ3哪些模型在交通动态快速变化时仍能保持最稳定的表现,表明其更适合实际部署?
- RQ4模型在速度预测与流量预测任务中的表现有何差异?MAPE、RMSE 和 MAE 等指标是否得出一致的排名?
- RQ5RNN 基模型的自回归特性在多大程度上会放大长期预测中的误差?
主要发现
- Graph-WaveNet 在所有数据集和预测时延上均实现了最高的平均准确率,在速度与流量预测任务中均优于其他模型。
- GMAN 在长期预测(如 60 分钟预测)中表现更优,是长期预测的最佳选择。
- 所有模型在交通突变区间均出现显著性能下降,平均 MAE 下降幅度在 67.3% 至 180.3% 之间。
- ASTGCN 在各数据集上表现出最低的性能下降,表明其对突发交通变化具有更强的鲁棒性。
- ST-MetaNet 在困难区间表现最差,主要因其元学习机制依赖于不变的先验知识。
- 模型性能与交通数据的移动标准差强相关——当速度或流量发生突变时,模型表现更差,凸显了在模型基准测试中引入动态条件评估的必要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。