[论文解读] Time Series Foundation Models as Strong Baselines in Transportation Forecasting: A Large-Scale Benchmark Analysis
本文将时序基础模型 Chronos-2 作为零-shot 基线,在十个真实世界交通数据集上进行评估,结果在大多数预测任务上与现有最先进方法相当,并在无需任务特定训练的情况下提供概率预测。
Accurate forecasting of transportation dynamics is essential for urban mobility and infrastructure planning. Although recent work has achieved strong performance with deep learning models, these methods typically require dataset-specific training, architecture design and hyper-parameter tuning. This paper evaluates whether general-purpose time-series foundation models can serve as forecasters for transportation tasks by benchmarking the zero-shot performance of the state-of-the-art model, Chronos-2, across ten real-world datasets covering highway traffic volume and flow, urban traffic speed, bike-sharing demand, and electric vehicle charging station data. Under a consistent evaluation protocol, we find that, even without any task-specific fine-tuning, Chronos-2 delivers state-of-the-art or competitive accuracy across most datasets, frequently outperforming classical statistical baselines and specialized deep learning architectures, particularly at longer horizons. Beyond point forecasting, we evaluate its native probabilistic outputs using prediction-interval coverage and sharpness, demonstrating that Chronos-2 also provides useful uncertainty quantification without dataset-specific training. In general, this study supports the adoption of time-series foundation models as a key baseline for transportation forecasting research.
研究动机与目标
- 评估通用型时序基础模型(TS-FMs)是否能作为多样化交通任务的零-shot 预测者。
- 在涵盖高速公路/城市交通、单车共享与电动汽车充电数据的十个真实世界数据集上对 Chronos-2 进行基准评测。
- 同时评估确定性准确性(MAE、RMSE、MAPE)与概率预测质量(标定与尖度)。
- 为在交通预测研究中将 TS-FMs 作为基线提供实用指引。
提出的方法
- 使用 Chronos-2(一个带分组注意力的仅编码器 Transformer 时序基础模型)对十个交通数据集进行零-shot 预测。
- 在滑动窗口的评估协议下,保持一致性,包括来自模型中位数分位点的标准指标(MAE、RMSE、MAPE)。
- 利用 Chronos-2 原生的 21 个分位输出,形成 80% 预测区间用于标定与尖度评估。
- 通过过去一周的历史数据提供上下文,不同数据集设定特定的上下文标记计数。
- 将 Chronos-2 与经典基线和专门的 DL 模型进行对比,报告相对于 HA 和最佳 DL 竞争对手的改进。
实验结果
研究问题
- RQ1单一 TS-FM(Chronos-2)是否能够在广泛的交通预测任务中无需任务特定微调就达到最先进或具竞争力的性能?
- RQ2在长时程预测上,零-shot 的 Chronos-2 相较传统基线与专门模型的表现如何?
- RQ3Chronos-2 的概率预测在各数据集上是否具有良好的标定与尖度?
- RQ4在交通预测研究中,使用 TS-FMs 作为标准基线的实用性与潜力如何?
主要发现
- Chronos-2 在大多数数据集上提供了最先进或高度竞争的确定性预测(MAE、RMSE、MAPE),通常优于经典与 DL 基线。
- 零-shot Chronos-2 在较长时间跨度上比许多自回归或对时长敏感的模型保持更高的准确性。
- Chronos-2 提供有意义的概率预测,在许多数据集上标定接近80%,并具备强尖度,使得无需再训练即可进行不确定性量化。
- 总体结果表明 TS-FMs 稳健、易用(CPU 友好推理),可作为交通预测研究中的标准基线。
- 某些数据集的特定动态(如 METR-LA)表明在显式考虑空间邻接性的同时,Chronos-2 的泛化能力仍然受益于其通用性。
- UrbanEV 结果显示对最后观测基线的显著改进,凸显 TS-FMs 在与 EV 相关预测中的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。