[论文解读] Extended Agriculture-Vision: An Extension of a Large Aerial Image Dataset for Agricultural Pattern Analysis
该论文在 Agriculture-Vision 基础上扩展了原始全场域影像和大规模未标注数据用于自监督预训练,将 Pixel-to-Propagation Module 集成到 MoCo-V2,并在农业模式分析任务中对 CNN 和 Swin Transformer 骨干进行基准测试。
A key challenge for much of the machine learning work on remote sensing and earth observation data is the difficulty in acquiring large amounts of accurately labeled data. This is particularly true for semantic segmentation tasks, which are much less common in the remote sensing domain because of the incredible difficulty in collecting precise, accurate, pixel-level annotations at scale. Recent efforts have addressed these challenges both through the creation of supervised datasets as well as the application of self-supervised methods. We continue these efforts on both fronts. First, we generate and release an improved version of the Agriculture-Vision dataset (Chiu et al., 2020b) to include raw, full-field imagery for greater experimental flexibility. Second, we extend this dataset with the release of 3600 large, high-resolution (10cm/pixel), full-field, red-green-blue and near-infrared images for pre-training. Third, we incorporate the Pixel-to-Propagation Module Xie et al. (2021b) originally built on the SimCLR framework into the framework of MoCo-V2 Chen et al.(2020b). Finally, we demonstrate the usefulness of this data by benchmarking different contrastive learning approaches on both downstream classification and semantic segmentation tasks. We explore both CNN and Swin Transformer Liu et al. (2021a) architectures within different frameworks based on MoCo-V2. Together, these approaches enable us to better detect key agricultural patterns of interest across a field from aerial imagery so that farmers may be alerted to problematic areas in a timely fashion to inform their management decisions. Furthermore, the release of these datasets will support numerous avenues of research for computer vision in remote sensing for agriculture.
研究动机与目标
- 解决农业领域大规模、经准确标注的遥感数据用于语义分割稀缺性。
- 提供一个扩展的、原始全场域数据集 (AV+) 用于预训练和评估。
- 在农业模式分析任务中使用多样化骨干(CNN 和 Swin Transformer)对自监督学习方法进行基准测试。
- 将 Pixel-to-Propagation Module (PPM) 集成到 MoCo-V2,并将 Temporal Contrast 方法适配到 AV+,以提升密集预测任务。
提出的方法
- 公布包含原始 RGB 和 NIR 图像的全场域 AV+ 数据用于预训练(3600 张图像,10 cm/pixel GSD)。
- 将 MoCo-V2 适配为多通道(RGB+NIR)预训练,采用实例级对比。
- 集成 Pixel-to-Propagation Module (PPM) 以实现像素级的预文本任务,并为密集表示定义 PixPro 损失。
- 引入 temporal contrast(TemCo)以利用多时相 AV+ 数据,并将其与 PPM 结合(TemCo-PixPro)。
- 探索 Swin Transformer 骨干(Swin-T),采用基于 MoCo 的预训练和用于时序与像素级任务的多头投影。
- 使用两个下游基准:在 AV+ 上的分类和语义分割,使用固定和微调的编码器。
实验结果
研究问题
- RQ1包含原始全场域影像和未标注数据的 AV+ 如何提升农业模式分析的预训练效果?
- RQ2在下游分类和分割任务中,MoCo-V2、MoCo-PixPro、TemCo 和 TemCo-PixPro 在不同的 CNN 与 Swin 骨干上分别带来怎样的提升?
- RQ3将 PPM 与多时相对比度结合是否能提升航空农业影像中的密集预测?
- RQ4RGB 与 RGB+NIR 通道在预训练和下游任务中的性能差异如何?
- RQ5AV+- 预训练模型向相关遥感任务(如 EuroSAT)以及 AV+ 内的精细分割的迁移能力如何?
主要发现
- 发布包含 3600 张原始全场域图像的 AV+ 以用于 SSL 预训练(超过 3 TB 的未标注数据)。
- MoCo-PixPro 和 TemCo-PixPro 一贯在下游的分割与分类上优于 MoCo-V2 和 ImageNet 初始化,特别是在较小的骨干和固定编码器时。
- Swim-T 基于 MoCo 变体在完全微调时对分割表现强劲,在多种设定下超过 ImageNet 初始化的骨干网络。
- 通过 PPM 的像素级预文本任务提高分割结果,尤其是当骨干容量增加(从 ResNet-18 到 Swin-T)时。
- 利用多时相 AV+ 图像的时序对比(TemCo)及其与 PPM 的结合(TemCo-PixPro)在模式分析中的时序敏感性方面带来提升。
- 与 Agriculture-Vision 基线相比,Swin-T 和 SSL 预训练方法在若干配置中实现了更高的 mean IoU,尤其是在 RGBN 通道上。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。