[论文解读] Forecasting of the Montreal Subway Smart Card Entry Logs with Event Data
本研究提出了一种通用的数据构建框架,利用智能卡数据、日历信息和计划内活动数据,实现了对蒙特利尔地铁15分钟间隔、长达一年的乘客需求长期预测。随机森林模型表现最佳,表明活动数据显著提升了预测精度,尤其在活动期间的偶尔乘客使用情况方面效果显著。
One of the major goals of transport operators is to adapt the transport supply scheduling to the passenger demand for existing transport networks during each specific period. Another problem mentioned by operators is accurately estimating the demand for disposable ticket or pass to adapt ticket availability to passenger demand. In this context, we propose generic data shaping, allowing the use of well-known regression models (basic, statistical and machine learning models) for the long-term forecasting of passenger demand with fine-grained temporal resolution. Specifically, this paper investigates the forecasting until one year ahead of the number of passengers entering each station of a transport network with a quarter-hour aggregation by taking planned events into account (e.g., concerts, shows, and so forth). To compare the models and the quality of the prediction, we use a real smart card and event data set from the city of Montr\'eal, Canada, that span a three-year period with two years for training and one year for testing.
研究动机与目标
- 实现城市轨道交通网络在细粒度时间分辨率(15分钟)下的长期需求预测。
- 开发一种通用的数据构建方法,将智能卡、日历和活动数据整合为标准回归模型可使用的特征。
- 通过预测不同票种的需求,特别是活动期间的需求,改善交通供给规划和车票可用性。
- 评估活动数据对预测精度的影响,尤其针对偶尔乘客和一次性车票的使用情况。
- 提供一种可复现的方法论,适用于其他具备类似数据条件的城市。
提出的方法
- 数据构建将日历和活动数据转化为数值特征(例如,星期几、活动是否存在、活动类型)以供模型输入。
- 采用15分钟时间聚合方法,以捕捉细粒度需求模式及活动影响。
- 比较多种模型:基础模型(线性)、统计模型(SARIMAX)和机器学习模型(随机森林、XGBoost、LightGBM)。
- 训练集覆盖两年数据,测试集包含一年真实世界数据,用于评估长期预测性能。
- 应用趋势调整方法以考虑逐年乘客量的变化。
- 通过全局预测和按票种划分的预测,使用MAE、RMSE和R²指标评估模型性能。
实验结果
研究问题
- RQ1仅使用提前可获得的日历和活动数据,能否准确预测长达一年的乘客需求?
- RQ2包含活动数据如何影响预测精度,特别是在活动期间?
- RQ3在长期、细粒度的地铁需求预测中,基础模型、统计模型还是机器学习模型表现最佳?
- RQ4在活动期间,不同票种(如偶尔乘客票)的需求如何变化,能否在预测中准确捕捉这一特征?
- RQ5趋势调整方法在多大程度上提升了长期预测性能?
主要发现
- 随机森林模型在全局需求预测中取得了最低的MAE和RMSE,优于统计模型和基础模型。
- 活动数据显著提升了预测精度,尤其在活动期间,对偶尔乘客使用的影响最为明显。
- 在卢西恩-勒阿利耶尔站,高峰活动时段(例如晚上10:15)使用偶尔乘客票的乘客数量最高可达1,000人。
- 预测性能因车站而异,尤其在活动场地附近的车站,当引入活动数据后,其可预测性显著提高。
- 趋势调整方法有效捕捉了逐年乘客量的增长,提升了长期预测的稳定性。
- 所提出的通用数据构建框架具有可复现性,可应用于其他具备类似数据条件的交通网络。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。