[论文解读] Rolling-Origin Validation Reverses Model Rankings in Multi-Step PM10 Forecasting: XGBoost, SARIMA, and Persistence
论文表明带持久性基准的滚动起点评估会改变多步 PM10 预测的模型排名:XGBoost 在短期不可超过持久性基准,而 SARIMA 在 1–7 天范围内保持稳健。
(a) Many air quality forecasting studies report gains from machine learning, but evaluations often use static chronological splits and omit persistence baselines, so the operational added value under routine updating is unclear. (b) Using 2,350 daily PM10 observations from 2017 to 2024 at an urban background monitoring station in southern Europe, we compare XGBoost and SARIMA against persistence under a static split and a rolling-origin protocol with monthly updates. We report horizon-specific skill and the predictability horizon, defined as the maximum horizon with positive persistence-relative skill. Static evaluation suggests XGBoost performs well from one to seven days ahead, but rolling-origin evaluation reverses rankings: XGBoost is not consistently better than persistence at short and intermediate horizons, whereas SARIMA remains positively skilled across the full range. (c) For researchers, static splits can overstate operational usefulness and change rankings. For practitioners, rolling-origin, persistence-referenced skill profiles show which methods stay reliable at each lead time.
研究动机与目标
- 评估在部署现实时间验证下 PM10 预测模型的运营 usefulness.
- 在滚动起点评估下比较持久性、SARIMA 和 XGBoost,覆盖 1–7 天的 horizons.
- 通过一个随 horizon 变化的指标,将预测 usefulness 相对于持久性基准进行量化。
- 将可预测性地平线定义为对长期累积技能的运营性总结。
提出的方法
- 使用来自西班牙 Elche 的城市背景站每日 PM10 数据(2017–2024)预测未来 1–7 天。
- 比较三大预测族:持久性、SARIMA 和 XGBoost,以覆盖朴素、经典和非线性方法。
- 在静态分割和带泄漏安全的滚动起点验证下进行评估,前处理仅限训练集。
- 计算特定 horizon 的 RMSE/MAE 以及相对持久性技能 SSm(h)=1−Errm(h)/Errpers(h)。
- 将 predictability horizon H* 定义为具有 SS m(h) > 0 的最大 h,用于总结运营 usefulness。

实验结果
研究问题
- RQ1当从静态时间顺序分割转向部署类似条件下的滚动起点评估时,模型排名是否会改变?
- RQ2在 1–7 天的 horizon 内,持久性、SARIMA 和 XGBoost 是否相对持久性保留积极技能?
- RQ3对于每个模型,超过哪一个 horizon 时预测 usefulness 变得可忽略(H*)?
- RQ4在滚动起点验证下,SARIMA 与 XGBoost 的 horizon 逐步技能曲线有何差异?
主要发现
- 在静态评估下,XGBoost 在 1–7 天范围内似乎优于持久性(SS=0.231–0.299),H*=7。
- 在滚动起点评估下,XGBoost 常常在短期无法超过持久性(如 h=1:SS=−0.192;许多折叠为非正值),仅在较长 horizon(h=5–7:SS=0.067–0.137)显示正技能。
- 在所有 horizon 下,SARIMA 保持正向平均技能(h=1:SS=0.027;h=6:SS=0.203;h=7:SS=0.192),在滚动起点评估下每个 horizon 均优于 XGBoost。
- 部署现实验证下,排名发生反转:SARIMA 在 1–7 天内优于 XGBoost,凸显评估设计的重要性。
- 研究引入并使用 H*,即具有正向持久性相关技能的最大 horizon,作为运营性 usefulness 的总结。
- 结果表明评估设计会实质性改变对模型有用性的感知,且持久性仍然是一个强有力的运营基准。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。