[논문 리뷰] Smart Weather Forecasting Using Machine Learning:A Case Study in Tennessee
본 논문은 다도시의 역사적 기상 데이터를 사용하여 간단한 머신 러닝 회귀 모델을 학습시키고, 이웃 도시를 포함시키면 Nashville의 단기 기온 예측 정확도가 향상된다는 것을 보여준다.
Traditionally, weather predictions are performed with the help of large complex models of physics, which utilize different atmospheric conditions over a long period of time. These conditions are often unstable because of perturbations of the weather system, causing the models to provide inaccurate forecasts. The models are generally run on hundreds of nodes in a large High Performance Computing (HPC) environment which consumes a large amount of energy. In this paper, we present a weather prediction technique that utilizes historical data from multiple weather stations to train simple machine learning models, which can provide usable forecasts about certain weather conditions for the near future within a very short period of time. The models can be run on much less resource intensive environments. The evaluation results show that the accuracy of the models is good enough to be used alongside the current state-of-the-art techniques. Furthermore, we show that it is beneficial to leverage the weather station data from multiple neighboring areas over the data of only the area for which weather forecasting is being performed.
연구 동기 및 목표
- 자원 집약적이지 않은 인프라를 활용하여 단기 기상 예측을 위한 머신 러닝의 활용을 동기 부여한다.
- 타깃 도시의 예측 정확도를 향상시키기 위해 이웃 도시의 데이터를 도입하는지 조사한다.
- 실용적 데이터 전처리를 통해 Weather 예측에 효과적인 기법을 식별하기 위해 여러 회귀 모델을 평가한다.
- Weather 서비스로부터의 데이터 수집을 자동화하고 ML 학습이 가능하도록 데이터를 전처리한다.
- 단순한 ML 모델이 특정 상황에서 전통적인 HPC 기반 기상 모델과 경쟁할 수 있다는 증거를 제공한다.
제안 방법
- Nashville과 주변 도시의 시간별 관측 데이터를 하나의 시점 기록으로 결합한다.
- 현재 시점의 다도시 특성을 사용하여 다음 날 시간별 기온을 예측하도록 회귀 모델을 학습한다.
- 가장 성능이 좋은 모델을 식별하기 위해 Ridge, SVR, MLPR, Random Forest, Extra-Trees 등 다수의 회귀기를 비교한다.
- 범주형 변수에 대한 원-핫 인코딩과 연속형 특성에 대한 평균 스케일링으로 데이터를 전처리한다.
- 학습 데이터(두 달)와 테스트 데이터(일주일)로 데이터를 나누어 평가한다.
- 주요 평가 지표로 RMSE를 사용한다.
실험 결과
연구 질문
- RQ1이웃 도시의 기상 데이터를 포함하는 것이 Nashville의 단기 기온 예측 정확도를 높이는가?
- RQ2다도시 기상 데이터를 사용하여 다음 날의 시간별 기온을 예측하는 데 가장 적합한 회귀 모델은 무엇인가?
- RQ3훈련 데이터의 크기(도시 수, 주 수)가 예측 RMSE에 어떤 영향을 미치는가?
- RQ4Weather 데이터에서 효과적인 ML 학습을 가능하게 하는 데이터 전처리 단계는 무엇인가?
- RQ5가벼운 ML 모델이 계산 자원을 줄이면서도 경쟁력 있는 예측을 제공할 수 있는가?
주요 결과
- 모든 주변 도시의 데이터를 포함하면 RMSE가 최저가 되어 Nashville 하나만 사용할 때보다 대략 35% 낮아진다.
- 훈련 데이터 길이가 최대 8주까지 증가하면 RMSE가 감소하다가 일부 주에서 다시 상승한다.
- Random Forest Regressor와 Extra-Tree Regressor는 10도시 학습에서 RMSE가 가장 낮아(~3.0) Ridge, SVR, 및 MLPR보다 다도시 케이스에서 우수하다.
- 일도시 모델은 일반적으로 모든 테스트된 회귀기에 대해 더 높은 RMSE를 보인다.
- 연구는 다도시 데이터가 Nashville의 단도시 데이터에 비해 단기 기온 예보를 상당히 향상시킬 수 있음을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.