[论文解读] So2Sat LCZ42: A Benchmark Dataset for Global Local Climate Zones Classification
本论文提出 So2Sat LCZ42,这是一个全球分布、开放的基准数据集,包含约40万份 Sentinel-1/2 图像块,标注有 17 个 Local Climate Zone (LCZ) 类,以及严格的标注工作流和基线分类结果。
Access to labeled reference data is one of the grand challenges in supervised machine learning endeavors. This is especially true for an automated analysis of remote sensing images on a global scale, which enables us to address global challenges such as urbanization and climate change using state-of-the-art machine learning techniques. To meet these pressing needs, especially in urban research, we provide open access to a valuable benchmark dataset named "So2Sat LCZ42," which consists of local climate zone (LCZ) labels of about half a million Sentinel-1 and Sentinel-2 image patches in 42 urban agglomerations (plus 10 additional smaller areas) across the globe. This dataset was labeled by 15 domain experts following a carefully designed labeling work flow and evaluation process over a period of six months. As rarely done in other labeled remote sensing dataset, we conducted rigorous quality assessment by domain experts. The dataset achieved an overall confidence of 85%. We believe this LCZ dataset is a first step towards an unbiased globallydistributed dataset for urban growth monitoring using machine learning methods, because LCZ provide a rather objective measure other than many other semantic land use and land cover classifications. It provides measures of the morphology, compactness, and height of urban areas, which are less dependent on human and culture. This dataset can be accessed from http://doi.org/10.14459/2018mp1483140.
研究动机与目标
- 提供一个全球分布的高质量 LCZ 标注数据集,以实现可转移的城市 LCZ 分类模型。
- 建立严格的标注工作流和质量评估,以实现可靠的标签。
- 向机器学习实验提供共注册的 SAR/光学图像块(Sentinel-1/2)的开放访问。
提出的方法
- 在大约 42 个大型城市群以及跨大陆的 10 个较小地区进行人工标签 LCZ 多边形。
- 将 LCZ 标签与 Sentinel-1 SAR 和 Sentinel-2 多光谱块(320m x 320m 块)共注册。
- 实施四阶段标注工作流:学习、标注、视觉验证和定量验证。
- 使用专家投票对多边标签结果进行多边形和像素级标签验证,以估计标签置信度(报告为 85% 总体)。
- 通过后处理(多边形收缩和类别平衡)在栅格化用于 ML 使用之前实现类别样本平衡。
- 在 Sentinel-2 特征上提供基线分类器(RF、SVM、ResNeXt-CBAM)。
实验结果
研究问题
- RQ1是否能够创建一个全球分布、专家标注的 LCZ 数据集,用于训练可泛化的 LCZ 分类器?
- RQ2在由多位专家验证时,LCZ 注释的标签质量和不确定性如何?
- RQ3在 LCZ42 数据集上使用常见的 ML 方法可以达到怎样的基线分类性能?
主要发现
| Classifier | OA | WA | AA | Kappa |
|---|---|---|---|---|
| RF | 0.51 | 0.87 | 0.31 | 0.46 |
| SVM | 0.54 | 0.88 | 0.36 | 0.49 |
| ResNeXt-CBAM | 0.61 | 0.92 | 0.51 | 0.58 |
- LCZ42 数据集包含 400,673 个 Sentinel-1/2 图像块对,带有 LCZ 标签,覆盖 52 个城市。
- 经过多数表决 refinement,人工标注的置信度约为 85%。
- 在 Sentinel-2 特征上的基线结果显示 RF OA=0.51, SVM OA=0.54, ResNeXt-CBAM OA=0.61。
- 加权准确度(WA) 值分别为 0.87 (RF), 0.88 (SVM), 0.92 (ResNeXt-CBAM)。
- 平均准确度(AA) 值分别为 0.31 (RF), 0.36 (SVM), 0.51 (ResNeXt-CBAM)。
- Kappa 系数分别为 0.46 (RF), 0.49 (SVM), 0.58 (ResNeXt-CBAM)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。