[论文解读] Spatially-aware station based car-sharing demand prediction
本研究提出了一类具有空间感知能力且可解释的机器学习模型——特别是将地理坐标作为输入特征的随机森林模型以及地理加权回归(GWR)——用于预测基于站点的长期平均月度汽车共享需求。模型取得了0.87的决定系数(R-squared),表明诸如兴趣点(POI)密度和人口社会特征等空间因素显著影响需求,而多尺度地理加权回归(MGWR)揭示了预测因子效应在多尺度空间上的异质性。
In recent years, car-sharing services have emerged as viable alternatives to private individual mobility, promising more sustainable and resource-efficient, but still comfortable transportation. Research on short-term prediction and optimization methods has improved operations and fleet control of car-sharing services; however, long-term projections and spatial analysis are sparse in the literature. We propose to analyze the average monthly demand in a station-based car-sharing service with spatially-aware learning algorithms that offer high predictive performance as well as interpretability. Our study utilizes a rich set of socio-demographic, location-based (e.g., POIs), and car-sharing-specific features as input, extracted from a large proprietary car-sharing dataset and publicly available datasets. We first compare the performance of different modeling approaches and find that a global Random Forest with geo-coordinates as part of input features achieves the highest predictive performance with an R-squared score of 0.87 on test data. While a local linear model, Geographically Weighted Regression, performs almost on par in terms of out-of-sample prediction accuracy. We further leverage the models to identify spatial and socio-demographic drivers of car-sharing demand. An analysis of the Random Forest via SHAP values, as well as the coefficients of GWR and MGWR models, reveals that besides population density and the car-sharing supply, other spatial features such as surrounding POIs play a major role. In addition, MGWR yields exciting insights into the multiscale heterogeneous spatial distributions of factors influencing car-sharing behaviour. Together, our study offers insights for selecting effective and interpretable methods for diagnosing and planning the placement of car-sharing stations.
研究动机与目标
- 填补现有针对基于站点的汽车共享系统长期、空间显式需求预测模型的空白。
- 通过整合空间与人口社会特征,提升新汽车共享站点规划中模型的可解释性与预测准确性。
- 利用局部回归模型(如GWR和MGWR)探究需求驱动因素的空间异质性。
- 比较全局非线性模型(如随机森林)与局部线性模型(如GWR)在长期需求预测中的性能与可解释性。
- 通过可解释且空间显式的汽车共享需求建模,为可持续城市交通规划提供可操作的洞见。
提出的方法
- 使用来自瑞士国家级汽车共享运营商的大规模数据集,涵盖1,641个站点及随时间变化的月度需求数据。
- 整合多样化输入特征:人口社会特征(如人口密度、收入水平)、基于位置的数据(如POI密度、公共交通可达性)以及汽车共享供给指标。
- 采用随机森林进行全局建模,并将地理坐标作为输入特征,以非线性方式捕捉空间模式。
- 应用地理加权回归(GWR)与多尺度地理加权回归(MGWR),建模预测因子与需求之间在空间上变化的关系。
- 利用SHAP值解释随机森林模型所学习到的特征重要性与非线性关系。
- 通过留出测试集验证模型性能,采用决定系数(R-squared)与样本外预测准确率报告结果。
实验结果
研究问题
- RQ1在长期平均月度汽车共享需求预测中,全局模型与局部模型哪种方法具有更高的预测准确性?
- RQ2人口社会特征与空间特征(如POI密度、公共交通可达性)如何在不同区域影响汽车共享需求?
- RQ3预测因子对需求的影响在空间上变化的程度有多大?局部模型(如MGWR)能否揭示多尺度空间异质性?
- RQ4SHAP值与GWR/MGWR的回归系数在识别关键需求驱动因素及其空间模式方面有何异同?
- RQ5可解释模型能否支持基于证据的新汽车共享站点部署规划?
主要发现
- 将地理坐标作为输入特征的全局随机森林模型在测试集上取得了最高的预测性能,决定系数(R-squared)达到0.87。
- 地理加权回归(GWR)在样本外预测中的表现几乎与随机森林相当,显示出强大的局部建模能力。
- SHAP值分析表明,需求在瑞士北部显著上升,表明模型成功捕捉到了区域性的空间模式。
- 除人口密度与供给水平外,周边兴趣点(POI)数量与公共交通可达性成为主要的空间需求驱动因素。
- MGWR揭示了多尺度空间异质性,表明不同预测因子在区域内的不同空间尺度上影响需求。
- 全局非线性模型(如随机森林)与局部线性模型(如GWR/MGWR)各具优势:前者在预测精度方面表现更优,后者在预测因子效应的空间可解释性方面更具优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。