Skip to main content
QUICK REVIEW

[論文レビュー] WeatherBench 2: A benchmark for the next generation of data-driven global weather models

Stephan Rasp, Stephan Hoyer|arXiv (Cornell University)|Aug 29, 2023
Meteorological Phenomena and Simulations被引用数 29
ひとこと要約

WeatherBench 2 は WeatherBench ベンチマークを、高解像度データ、新しい指標、そして最先端のベースラインに対してデータ駆動型の全球天気予報を評価するオープンソースのフレームワークを提供する。

ABSTRACT

WeatherBench 2 is an update to the global, medium-range (1-14 day) weather forecasting benchmark proposed by Rasp et al. (2020), designed with the aim to accelerate progress in data-driven weather modeling. WeatherBench 2 consists of an open-source evaluation framework, publicly available training, ground truth and baseline data as well as a continuously updated website with the latest metrics and state-of-the-art models: https://sites.research.google/weatherbench. This paper describes the design principles of the evaluation framework and presents results for current state-of-the-art physical and data-driven weather models. The metrics are based on established practices for evaluating weather forecasts at leading operational weather centers. We define a set of headline scores to provide an overview of model performance. In addition, we also discuss caveats in the current evaluation setup and challenges for the future of data-driven weather forecasting.

研究の動機と目的

  • 高解像度でデータ駆動型全球天気予報を評価する、オープンで拡張可能な評価フレームワークを提供する。
  • ECMWF/WMO の実践に合わせた主要検証スコアのセットを定義する。
  • 共通の真値と評価ツールを用いて、従来の物理ベース予報とAI/MLモデルの公正な比較を可能にする。
  • 確率的なデータ駆動型天気予報の留意点、課題、将来の方向性を浮き彫りにする。

提案手法

  • WeatherBench 2 を導く設計原則と WB1 との違いを説明する。
  • WMO/ECMWF の実践に沿った評価プロトコルと指標を定義する(RMSE、ACC、Bias、SEEPS、CRPS)。
  • 公開データ、訓練データ、ベースライン、評価コードを継続的に更新されるサイトとして公開する。
  • 運用モデルおよびデータ駆動モデルからの複数のベースラインを提供する(ERA5、IFS HRES/ENS、Keisler GraphNet、Pangu-Weather、GraphCast、FuXi、SphericalCNN、NeuralGCM)。
  • データ処理の選択肢を検討する(ERA5 の真値、評価のための 1.5° へのリグリッド、地下以下のマスキング)。
  • データ駆動予報の確率評価フレームワークとアンサンブル風のアプローチを支援する。
Figure 1: Deterministic headline scorecards for upper-level variables. Values show absolute RMSE. Colors denote % difference to the IFS HRES baseline.
Figure 1: Deterministic headline scorecards for upper-level variables. Values show absolute RMSE. Colors denote % difference to the IFS HRES baseline.

実験結果

リサーチクエスチョン

  • RQ1共有のオープン評価フレームワークを用いて、データ駆動型全球天気モデルを運用NWPベースラインと公正に評価するにはどうすればよいか。
  • RQ21–14日先の予報における決定論的および確率論的予報の性能を最も要約する主要スコアは何か。
  • RQ3ERA5真値と運用解析を用いたMLベースの天気予報を評価する際の留意点と限界は何か。
  • RQ4高解像度のデータ駆動モデルは、複数の指標と変数にわたって従来の IFS ベース予報とどのように比較されるか。

主な発見

  • WeatherBench 2 は、最新の指標とモデルを備えたオープンソースの評価フレームワーク、データセット、ベースライン、および継続的に更新されるウェブサイトを提供します。
  • 評価プロトコルは WMO/ECMWF の検証実践に密接に従い、広範なモデル比較のための定義された主要スコアのセットを備えています。
  • ベンチマークは、最先端のデータ駆動モデル(例:GraphCast、Pangu-Weather、FuXi、SphericalCNN、NeuralGCM)と従来のベースライン(ERA5、IFS HRES/ENS)を網羅します。
  • Forecasts are run on standardized inputs and resolutions, with regridding to 1.5° to ensure fair cross-model comparison.
  • The framework emphasizes probabilistic forecasts and ensemble-like evaluation to reflect uncertainty in weather prediction.
Figure 2: Deterministic headline scorecards for surface variables. Values show absolute RMSE, with the exception of precipitation which shows SEEPS (evaluated against ERA5 in all cases). Colors denote % difference to the IFS HRES baseline.
Figure 2: Deterministic headline scorecards for surface variables. Values show absolute RMSE, with the exception of precipitation which shows SEEPS (evaluated against ERA5 in all cases). Colors denote % difference to the IFS HRES baseline.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。