[论文解读] Proceedings of the 9th International Workshop on Climate Informatics: CI2019
本文提出了一种基线方法,通过结合时空高斯核聚合、TF-IDF文本特征和逻辑回归,利用Twitter数据估算城市区域的洪水概率。该方法在休斯顿飓风哈维期间预测洪水区域细胞时取得了68%的测试F1分数,证明了利用社交媒体进行实时洪水制图的可行性。
Many climate modeling studies have demon-strated the importance of two-way interactions betweenozone and atmospheric dynamics. However, atmosphericchemistry models needed for calculating changes in ozoneare computationally expensive. Nowack et al. [1] high-lighted the potential of machine learning-based ozoneparameterizations in constant climate forcing simulations,with ozone being predicted as a function of the atmo-spheric temperature state. Here we investigate the roleof additional time-lagged temperature information underpreindustrial forcing conditions. In particular, we testif the use of Long Short-Term Memory (LSTM) neuralnetworks can significantly improve the predictive skill ofthe parameterization. We then introduce a novel workflowto transfer the regression model to the new UK EarthSystem Model (UKESM). For this, we show for the firsttime how machine learning parameterizations could betransferred between climate models, a pivotal step tomaking any such parameterization widely applicable inclimate science. Our results imply that ozone parame-terizations could have much-extended scope as they arenot bound to individual climate models but, once trained,could be used in a number of different models. We hope tostimulate similar transferability tests regarding machinelearning parameterizations developed for other Earthsystem model components such as ocean eddy modeling,convection, clouds, or carbon cycle schemes.
研究动机与目标
- 开发一种将非结构化Twitter数据转换为表示洪水概率的地理参考栅格地图的方法。
- 评估不同特征表示方法(SMER、基于关键词的、TF-IDF)在分类洪水与非洪水网格单元方面的性能。
- 探索异质数据源(文本、地理位置、时间)的整合,用于环境灾害监测。
- 识别与社交媒体内容中洪水事件相关的关键语言和空间特征。
提出的方法
- 应用时空高斯核函数将推文聚合到二维栅格单元中,以建模洪水相关内容的空间和时间密度。
- 使用推文文本的TF-IDF表示构建特征向量,并通过仅保留出现在10篇以上推文中的术语来降低维度。
- 使用L1正则化的逻辑回归学习稀疏模型,将特征向量映射到二元洪水概率预测。
- 采用五折交叉验证策略优化L1正则化超参数,并在平衡的训练集和测试集上计算F1分数。
- 通过20次独立运行中逻辑模型的归一化权重对特征重要性进行排序,以识别最具预测性的术语。
- 整合多种数据源:文本内容(TF-IDF)、地理位置(地理标签和边界框)以及时间元数据,以丰富特征向量。
实验结果
研究问题
- RQ1Twitter数据能否被有效转化为与SAR卫星影像生成的洪水概率图相当的 probabilistic 洪水地图?
- RQ2在网格单元层面预测洪水发生时,不同文本特征表示方法(SMER、基于关键词的、TF-IDF)的表现如何比较?
- RQ3社交媒体内容中哪些语言和空间特征最能预测城市环境中实际发生的洪水?
- RQ4引入时空核聚合在多大程度上提升了社交媒体中洪水相关内容的定位精度?
主要发现
- TF-IDF特征表示在测试中取得了68% ± 0.01的F1分数,显著优于基线方法,表现出强大的预测能力。
- L1正则化的逻辑回归模型实现了稀疏性,平均将非零特征数量减少至896个(中位数为247个),表明有效的特征选择。
- 最具相关性的特征包括'悲伤'和'虚假'等出乎意料的术语,表明其可能作为压力或虚假信息的间接指标。
- 尽管'哈维'具有相关性,但其并未出现在前导特征中,可能是因为它在一般飓风讨论中频率过高,从而降低了其区分能力。
- 仅有1个2-gram出现在前导特征中,突显了高阶n-gram的低效性,因其频率低且统计效力有限。
- 尽管模型性能高于随机水平(F1 = 0.5),但仍有较大提升空间,尤其是通过使用上下文嵌入等先进NLP技术。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。