[论文解读] Evaluating Forecasts with scoringutils in R
本文展示了如何在 R 中使用 scoringutils 包来评估预测,包括对分数的汇总、覆盖度估计,以及将基于样本的预测转换为分位数格式。还讨论了在聚合分数和解释校准指标时应注意的事项。
Evaluating forecasts is essential to understand and improve forecasting and make forecasts useful to decision makers. A variety of R packages provide a broad variety of scoring rules, visualisations and diagnostic tools. One particular challenge, which scoringutils aims to address, is handling the complexity of evaluating and comparing forecasts from several forecasters across multiple dimensions such as time, space, and different types of targets. scoringutils extends the existing landscape by offering a convenient and flexible data.table-based framework for evaluating and comparing probabilistic forecasts (forecasts represented by a full predictive distribution). Notably, scoringutils is the first package to offer extensive support for probabilistic forecasts in the form of predictive quantiles, a format that is currently used by several infectious disease Forecast Hubs. The package is easily extendable, meaning that users can supply their own scoring rules or extend existing classes to handle new types of forecasts. scoringutils provides broad functionality to check the data and diagnose issues, to visualise forecasts and missing data, to transform data before scoring, to handle missing forecasts, to aggregate scores, and to visualise the results of the evaluation. The paper presents the package and its core functionality and illustrates common workflows using example data of forecasts for COVID-19 cases and deaths submitted to the European COVID-19 Forecast Hub.
研究动机与目标
- 演示如何在 R 中使用 scoringutils 进行预测评估。
- 展示如何汇总预测分数并在不同模型和目标类型之间可视化它们。
- 提供关于校准指标和使用经验预测区间进行覆盖度评估的指导。
- 演示针对不同预测格式(分位数基准与基于样本)数据准备的步骤。
提出的方法
- 使用 summarise_scores 按模型和目标类型聚合并显示预测分数。
- 应用 add_coverage 量化中心预测区间的经验覆盖(例如 50% 或 90%)。
- 使用 sample_to_quantile 将基于样本的预测转换为分位数基准形式,从而能够使用 score() 和 add_coverage()。
- 演示使用 plotscoretable 进行绘图以及按/分组选项(例如按 targettype)进行分组绘图。
- 强调在跨异构预测类型或时间 horizon 聚合分数时的注意事项,以避免被大幅量级的目标主导。
- 注意通过经验覆盖作为校准代理,以及在使用其他汇总函数(如 signif)时需谨慎的作用。
实验结果
研究问题
- RQ1如何使用 scoringutils 计算和可视化跨模型和目标类型的预测评估指标?
- RQ2针对不同预测格式(分位数基准 vs 基于样本)有哪些合适的聚合和可视化策略?
- RQ3经验覆盖度指标如何反映预测区间的校准,以及如何将其添加到分数表中?
- RQ4在跨异构预测目标或时段聚合分数时需要哪些注意?
主要发现
- scoringutils 通过像 summarise_scores 和 plotscoretable 这样的函数实现对预测分数的汇总和可视化。
- add_coverage 提供指定中心预测区间(如 50% 或 90%)的经验覆盖估计。
- sample_to_quantile 允许将基于样本的预测转换为适合评分和覆盖分析的分位数基准格式。
- 在跨异构目标或时段聚合分数可能导致总和被主导和误解;建议使用相对分析或分层分析。
- 示例展示了多量级(如病例、死亡数)和多模型情景,结果包括按模型和按目标类型的汇总。
- 建议用户对非均值汇总函数保持谨慎,因为在某些聚合下分数的妥当性可能被违反。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。