[论文解读] Smart Weather Forecasting Using Machine Learning:A Case Study in Tennessee
本文使用多城历史天气数据训练简单机器学习回归模型,结果显示包含邻近城市有助于纳什维尔近端温度预测准确性提升。
Traditionally, weather predictions are performed with the help of large complex models of physics, which utilize different atmospheric conditions over a long period of time. These conditions are often unstable because of perturbations of the weather system, causing the models to provide inaccurate forecasts. The models are generally run on hundreds of nodes in a large High Performance Computing (HPC) environment which consumes a large amount of energy. In this paper, we present a weather prediction technique that utilizes historical data from multiple weather stations to train simple machine learning models, which can provide usable forecasts about certain weather conditions for the near future within a very short period of time. The models can be run on much less resource intensive environments. The evaluation results show that the accuracy of the models is good enough to be used alongside the current state-of-the-art techniques. Furthermore, we show that it is beneficial to leverage the weather station data from multiple neighboring areas over the data of only the area for which weather forecasting is being performed.
研究动机与目标
- 推动在资源占用较少的基础设施下使用机器学习进行短期天气预测。
- 研究将邻近城市的数据纳入是否能提升目标城市的预测准确性。
- 评估多种回归模型,以在实际数据预处理条件下发现用于天气预测的有效方法。
- 实现来自气象服务的数据自动化收集并对数据进行预处理,以实现ML训练。
- 提供证据表明在某些场景下,简单的ML模型可以与传统的基于HPC的天气模型竞争。
提出的方法
- 在每个时间戳将纳什维尔及周边城市的逐小时天气观测合并为统一记录。
- 使用当天的多城市特征训练回归模型以预测第二天的逐小时温度。
- 比较多种回归器(Ridge、SVR、MLPR、Random Forest、Extra-Trees)以确定最佳模型。
- 对分类变量进行独热编码,对连续特征进行均值缩放以进行预处理。
- 将数据分为训练(两个月)和测试(1周)集以进行评估。
- 以RMSE作为主要评估指标。
实验结果
研究问题
- RQ1纳什维尔的近端温度预测中,纳入邻近城市的天气数据是否能提高预测准确性?
- RQ2哪些回归模型在使用多城市天气数据时能最好地预测第二天的逐小时温度?
- RQ3训练数据量(城市数量、周数)如何影响预测的RMSE?
- RQ4实现对天气数据进行有效ML训练所需的预处理步骤有哪些?
- RQ5轻量级的ML模型是否能在降低计算资源的情况下提供有竞争力的预测?
主要发现
- 整合所有周边城市的数据得到的RMSE最低,大约比仅使用纳什维尔的数据低约35% 。
- RMSE在训练数据长度增加到8周时下降,随后在某些周又再次上升。
- 在十城训练下,Random Forest Regressor和 Extra-Tree Regressor 实现最低RMSE(约3.0),在多城情况下优于 Ridge、SVR 和 MLPR。
- 单城市模型在所有测试的回归器中通常显示更高的RMSE。
- 研究表明,与单城数据相比,多城数据可以显著提升纳什维尔的短期温度预测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。