Skip to main content
QUICK REVIEW

[논문 리뷰] Scaling transformer neural networks for skillful and reliable medium-range weather forecasting

Tung Nguyen, Rohan Shah|arXiv (Cornell University)|2023. 12. 06.
Meteorological Phenomena and Simulations인용 수 19
한 줄 요약

간단한 트랜스포머 기반 모델이 기상 특화 임베딩, 무작위 동역학 예측, 기압 가중 손실을 통해 WeatherBench 2에서 짧은 범위 예측은 경쟁적이고 7일을 넘는 장기 예측에서도 우수하며, 데이터와 컴퓨트가 훨씬 적게 필요하다.

ABSTRACT

Weather forecasting is a fundamental problem for anticipating and mitigating the impacts of climate change. Recently, data-driven approaches for weather forecasting based on deep learning have shown great promise, achieving accuracies that are competitive with operational systems. However, those methods often employ complex, customized architectures without sufficient ablation analysis, making it difficult to understand what truly contributes to their success. Here we introduce Stormer, a simple transformer model that achieves state-of-the-art performance on weather forecasting with minimal changes to the standard transformer backbone. We identify the key components of Stormer through careful empirical analyses, including weather-specific embedding, randomized dynamics forecast, and pressure-weighted loss. At the core of Stormer is a randomized forecasting objective that trains the model to forecast the weather dynamics over varying time intervals. During inference, this allows us to produce multiple forecasts for a target lead time and combine them to obtain better forecast accuracy. On WeatherBench 2, Stormer performs competitively at short to medium-range forecasts and outperforms current methods beyond 7 days, while requiring orders-of-magnitude less training data and compute. Additionally, we demonstrate Stormer's favorable scaling properties, showing consistent improvements in forecast accuracy with increases in model size and training tokens. Code and checkpoints are available at https://github.com/tung-nd/stormer.

연구 동기 및 목표

  • 중간 범위 기상 예측에 대해 더 간단하고 확장 가능한 데이터 기반 접근 방식을 제시한다.
  • 성능을 이끄는 핵심 아키텍처 및 훈련 구성 요소를 식별한다.
  • 적절한 학습 전략을 사용할 때 표준 트랜스포머가 복잡한 모델과 맞먹거나 이를 능가할 수 있음을 보인다.
  • 모델 규모와 데이터에 따른 우수한 확장성을 시연하고 최신 기준선과 비교한다.

제안 방법

  • 변수를 토큰화하고 교차 어텐션으로 집계하는 기상 특화 임베딩을 갖춘 표준 Transformer 백본을 사용한다.
  • 무작위 구간에 걸친 무작위 동역학 예측 목표로 학습하여 기상 동역학 Δδt를 예측한다.
  • 가중치를 대기압으로 두어 지표면 변수의 중요성을 강조한다.
  • 장기 예측의 정확도를 높이기 위해 다단계 파인튜닝 체제를 채택한다.
  • 여럿 간격 롤아웃을 조합하여 추론한다(다수 중 최상 m개를 선택하는 방식 또는 동질 전략).
  • WeatherBench 2 ERA5 데이터에서 1–14일 예측에서 평가하고 Pangu-Weather, GraphCast, 기후학(climatology)과 비교한다.

실험 결과

연구 질문

  • RQ1전문화된 임베딩과 학습 레시피를 갖춘 간단한 트랜스포머가 WeatherBench 2에서 짧은 예측에서 경쟁력을 갖고, 긴 예측에서 우수한 성능을 보일 수 있는가?
  • RQ2무작위 간격 예측과 기압 가중 손실이 예측 정확도를 예측 기간 전반에 걸쳐 크게 개선하는가?
  • RQ3모델 규모, 패치 크기, 학습 토큰 수가 성능과 확장성에 어떤 영향을 미치는가?
  • RQ4장기 예측에서 롤아웃 오차를 줄이는 데 다단계 파인튜닝이 필수적인가?
  • RQ5제안된 방법이 데이터 및 컴퓨트 효율성 측면에서 최첨단 딥러닝 베이스라인과 어떻게 비교되는가?

주요 결과

  • 이 모델은 1–7일 예측에서 경쟁력 있는 정확도를 달성하고 7일을 넘는 기간에서 베이스라인보다 우수하다.
  • 학습에 필요한 데이터와 컴퓨트가 Pangu-Weather와 GraphCast에 비해 수십 배에서 수백 배 더 적다.
  • 무작위 동역학 예측은 추가 컴퓨트 없이 다수의 간격 롤아웃을 가능하게 하여 정확도를 향상시킨다.
  • 기압 가중 손실 및 동역학 예측은 이러한 구성 요소가 없는 모델보다 성능이 더 뛰어나다.
  • 더 큰 모델과 더 많은 학습 토큰으로 성능이 향상되고, 더 작은 패치 크기가 이점을 가져온다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.