Skip to main content
QUICK REVIEW

[论文解读] WeatherBench 2: A benchmark for the next generation of data-driven global weather models

Stephan Rasp, Stephan Hoyer|arXiv (Cornell University)|Aug 29, 2023
Meteorological Phenomena and Simulations被引用 29
一句话总结

WeatherBench 2 在 WeatherBench 基准上更新了更高分辨率的数据、新的指标,以及用于评估数据驱动的全球天气预报与最先进基线对比的开源框架。

ABSTRACT

WeatherBench 2 is an update to the global, medium-range (1-14 day) weather forecasting benchmark proposed by Rasp et al. (2020), designed with the aim to accelerate progress in data-driven weather modeling. WeatherBench 2 consists of an open-source evaluation framework, publicly available training, ground truth and baseline data as well as a continuously updated website with the latest metrics and state-of-the-art models: https://sites.research.google/weatherbench. This paper describes the design principles of the evaluation framework and presents results for current state-of-the-art physical and data-driven weather models. The metrics are based on established practices for evaluating weather forecasts at leading operational weather centers. We define a set of headline scores to provide an overview of model performance. In addition, we also discuss caveats in the current evaluation setup and challenges for the future of data-driven weather forecasting.

研究动机与目标

  • 提供一个开放、可扩展的评估框架,用于在更高分辨率下评估数据驱动的全球天气预报。
  • 定义一组与 ECMWF/WMO 实践对齐的核心评估分数。
  • 利用共享的真实观测数据和评估工具,在传统基于物理的预报与 AI/ML 模型之间实现公平比较。
  • 突出概率化、数据驱动天气预报的注意事项、挑战以及未来方向。

提出的方法

  • 描述指导 WeatherBench 2 的设计原则以及它与 WB1 的不同之处。
  • 定义符合 WMO/ECMWF 实践的评估协议和指标(RMSE、ACC、Bias、SEEPS、CRPS)。
  • 以持续更新的站点形式发布开源的真实地面数据、训练数据、基线模型和评估代码。
  • 提供来自运营和数据驱动模型的多种基线(ERA5, IFS HRES/ENS, Keisler GraphNet, Pangu-Weather, GraphCast, FuXi, SphericalCNN, NeuralGCM)。
  • 讨论数据处理选项(ERA5 真实地面数据、评估用重网格为 1.5°、以及地下遮罩)。
  • 支持概率化评估框架和类似集合的方法用于数据驱动的预报。
Figure 1: Deterministic headline scorecards for upper-level variables. Values show absolute RMSE. Colors denote % difference to the IFS HRES baseline.
Figure 1: Deterministic headline scorecards for upper-level variables. Values show absolute RMSE. Colors denote % difference to the IFS HRES baseline.

实验结果

研究问题

  • RQ1如何在共享、开放的评估框架下,公正地将数据驱动的全球天气模型与运行中的数值天气预报基线进行比较?
  • RQ2哪些 headline 分数最能在 1–14 天预报期的确定性与概率性预报之间概括性能?
  • RQ3在用 ERA5 地面真值和运营分析评估机器学习天气预报时,存在哪些注意事项和局限性?
  • RQ4高分辨率数据驱动模型在多指标、多变量上与传统的 IFS 基于预报相比如何?

主要发现

  • WeatherBench 2 提供开源评估框架、数据集、基线,以及带有最新指标和模型的持续更新网站。
  • 评估协议严格遵循 WMO/ECMWF 的核验实践,定义了一组用于广泛模型比较的 headline 分数。
  • 基准汇集了多种前沿数据驱动模型(如 GraphCast、Pangu-Weather、FuXi、SphericalCNN、NeuralGCM)和传统基线(ERA5、IFS HRES/ENS)。
  • 预报在标准化输入和分辨率上运行,并重网格到 1.5° 以确保跨模型公平比较。
  • 该框架强调概率性预报和类似集合的评估,以反映天气预报中的不确定性。
Figure 2: Deterministic headline scorecards for surface variables. Values show absolute RMSE, with the exception of precipitation which shows SEEPS (evaluated against ERA5 in all cases). Colors denote % difference to the IFS HRES baseline.
Figure 2: Deterministic headline scorecards for surface variables. Values show absolute RMSE, with the exception of precipitation which shows SEEPS (evaluated against ERA5 in all cases). Colors denote % difference to the IFS HRES baseline.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。