[论文解读] Vision Foundation Models in Remote Sensing: A Survey
对遥感领域的视觉基础模型(2021–2024)的全面综述,详细介绍架构、预训练数据/方法、数据集,以及在计算机视觉和领域特有任务中的性能趋势。
Artificial Intelligence (AI) technologies have profoundly transformed the field of remote sensing, revolutionizing data collection, processing, and analysis. Traditionally reliant on manual interpretation and task-specific models, remote sensing research has been significantly enhanced by the advent of foundation models-large-scale, pre-trained AI models capable of performing a wide array of tasks with unprecedented accuracy and efficiency. This paper provides a comprehensive survey of foundation models in the remote sensing domain. We categorize these models based on their architectures, pre-training datasets, and methodologies. Through detailed performance comparisons, we highlight emerging trends and the significant advancements achieved by those foundation models. Additionally, we discuss technical challenges, practical implications, and future research directions, addressing the need for high-quality data, computational resources, and improved model generalization. Our research also finds that pre-training methods, particularly self-supervised learning techniques like contrastive learning and masked autoencoders, remarkably enhance the performance and robustness of foundation models. This survey aims to serve as a resource for researchers and practitioners by providing a panorama of advances and promising pathways for continued development and application of foundation models in remote sensing.
研究动机与目标
- 提供在遥感领域于 2021 年 6 月至 2024 年 6 月发布的基础模型的结构化概述。
- 按计算机视觉任务和领域特定任务对模型进行分类,并总结架构、数据集和预训练方法。
- 突出在遥感中基础模型的性能趋势、挑战和未来方向。
提出的方法
- 评审并按下游任务对基础模型进行分类(场景分类、分割、检测、变化检测)。
- 总结架构(ResNet、ViT、Swin 等)、预训练数据集,以及自监督学习方法(对比学习、MAE、DINO)。
- 比较预训练策略及其对遥感任务鲁棒性和泛化能力的影响。
- 讨论常用的遥感数据集和数据模态(多光谱、SAR、高光谱、时序数据)。
- 识别大规模预训练遥感模型的空白、挑战和未来方向。
实验结果
研究问题
- RQ1在遥感领域(2021–2024)视觉基础模型的现状与趋势是什么?
- RQ2预训练方法和骨干网络如何影响场景分类、分割、对象检测和变化检测等遥感任务的性能?
- RQ3哪些数据集和数据模态支撑这些基础模型?在泛化和部署方面还存在哪些挑战?
主要发现
- 通过自监督学习(例如对比学习、MAE、DINO)预训练的基础模型在遥感任务上提升了性能和鲁棒性。
- Transformer 与基于 ViT 的骨干网络在遥感基础模型中已与 CNN(ResNet)并肩成为主导。
- 大量遥感数据集(例如 BigEarthNet、SEN12MS、fMoW、MillionAID)支持预训练和评估,覆盖广泛的地理区域和模态。
- 模型越来越多地在多个下游任务上进行评估(场景分类、语义分割、对象检测、变化检测),大量研究在特定任务上达到最新基准。
- 挑战包括对高质量多样化数据的需求、巨大的计算资源,以及对遥感特定的领域适应。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。