[论文解读] ExtremeWeather: A large-scale climate dataset for semi-supervised detection, localization, and understanding of extreme weather events
介绍 ExtremeWeather,一个大型多通道气候数据集,以及用于检测和定位四种极端天气事件的3D半监督编码器–解码器网络,带有边界框损失和在小/中/大划分上的基准。
Then detection and identification of extreme weather events in large-scale climate simulations is an important problem for risk management, informing governmental policy decisions and advancing our basic understanding of the climate system. Recent work has shown that fully supervised convolutional neural networks (CNNs) can yield acceptable accuracy for classifying well-known types of extreme weather events when large amounts of labeled data are available. However, many different types of spatially localized climate patterns are of interest including hurricanes, extra-tropical cyclones, weather fronts, and blocking events among others. Existing labeled data for these patterns can be incomplete in various ways, such as covering only certain years or geographic areas and having false negatives. This type of climate data therefore poses a number of interesting machine learning challenges. We present a multichannel spatiotemporal CNN architecture for semi-supervised bounding box prediction and exploratory data analysis. We demonstrate that our approach is able to leverage temporal information and unlabeled data to improve the localization of extreme weather events. Further, we explore the representations learned by our model in order to better understand this important data. We present a dataset, ExtremeWeather, to encourage machine learning research in this area and to help facilitate further work in understanding and mitigating the effects of climate change. The dataset is available at extremeweatherdataset.github.io and the code is available at https://github.com/eracah/hur-detect.
研究动机与目标
- 需要说明在气候模拟中的局部极端天气事件分析相对于全球平均的必要性
- 提供一个用于四种事件类型边界框检测的大规模多通道数据集(ExtremeWeather)
- 提出一个带半监督学习的3D卷积编码器–解码器架构,用于边界框回归与重建
- 展示通过重建利用未标注数据能够改善定位,特别是对飓风及相关事件的定位
- 提供基准划分(小、中、大),以促进气候科学中的下游机器学习研究
提出的方法
- 使用带绑定权重的3D(高度、宽度、时间)卷积编码器–解码器,用于重建和预测
- 在瓶颈处应用单次前向的边界框回归损失来预测框的位置、大小、置信度和类别
- 将图像划分为12x18网格的64x64锚点,在每个时间步生成216个预测,损失函数为多分量损失 L = L_sup + λ L_rec
- 以半监督目标进行训练,其中未标注帧通过重建损失贡献,从而实现更好的时空特征学习
- 四种事件类型(TD、TC、ETC、US-AR)的真实边界框来自 TECA 的中心和大小,承认标注噪声和部分标注的情况
- 提供数据集划分和基线,并在网上提供代码和数据
实验结果
研究问题
- RQ1半监督3D CNN 是否能在极端天气事件的定位准确性上优于全监督基线?
- RQ2通过重建利用未标注帧是否能提升对飓风和相关事件的时空表示学习?
- RQ3时间信息(3D 与 2D)如何影响不同事件类型的检测与定位性能?
- RQ4不同损失权重(λ)对半监督学习下边界框回归和类别置信度有何影响?
主要发现
- 3D 半监督模型在温带气旋和热带气旋方面优于2D 对手。
- 半监督学习提升 ETC 和 TC 的定位,表明从未标注数据中获得的时空特征学习是有益的。
- 更长的训练和合适的锚点尺寸(64x64)影响边界框精度和 IOU 性能,在 IOU=0.1 时即可实现大致定位。
- 时间上下文(时间维度)对于区分数据集中的某些天气事件很重要。
- 数据集中存在类别不平衡(例如 AR 相对不足)和 TECA 真值中的标注噪声。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。