[논문 리뷰] Foundation Models for Generalist Geospatial Artificial Intelligence
Prithvi를 소개합니다. Harmonized Landsat-Sentinel-2 데이터 1TB에서 사전 학습된 100M 파라미터의 지리공간 기초 모델로, 클라우드 격차 보정(cloud gap imputation), 홍수/산불/작물 분할 작업에서의 미세조정 성공, 그리고 HuggingFace에서의 오픈 소스 공개를 통한 데이터 효율적 학습을 선보입니다.
Significant progress in the development of highly adaptable and reusable Artificial Intelligence (AI) models is expected to have a significant impact on Earth science and remote sensing. Foundation models are pre-trained on large unlabeled datasets through self-supervision, and then fine-tuned for various downstream tasks with small labeled datasets. This paper introduces a first-of-a-kind framework for the efficient pre-training and fine-tuning of foundational models on extensive geospatial data. We have utilized this framework to create Prithvi, a transformer-based geospatial foundational model pre-trained on more than 1TB of multispectral satellite imagery from the Harmonized Landsat-Sentinel 2 (HLS) dataset. Our study demonstrates the efficacy of our framework in successfully fine-tuning Prithvi to a range of Earth observation tasks that have not been tackled by previous work on foundation models involving multi-temporal cloud gap imputation, flood mapping, wildfire scar segmentation, and multi-temporal crop segmentation. Our experiments show that the pre-trained model accelerates the fine-tuning process compared to leveraging randomly initialized weights. In addition, pre-trained Prithvi compares well against the state-of-the-art, e.g., outperforming a conditional GAN model in multi-temporal cloud imputation by up to 5pp (or 5.7%) in the structural similarity index. Finally, due to the limited availability of labeled data in the field of Earth observation, we gradually reduce the quantity of available labeled data for refining the model to evaluate data efficiency and demonstrate that data can be decreased significantly without affecting the model's accuracy. The pre-trained 100 million parameter model and corresponding fine-tuning workflows have been released publicly as open source contributions to the global Earth sciences community through Hugging Face.
연구 동기 및 목표
- 레이블이 없는 다중 센서 원격 감지 데이터를 대규모로 처리하기 위해 지구과학에서 기초 모델의 활용을 촉진한다.
- 대형 다스펙트럼 시계열 데이터에서 바로 지리공간 기초 모델의 사전 학습 및 미세 조정을 위한 확장 가능한 프레임워크를 개발한다.
- 제한된 라벨 데이터로 다양한 다운스트림 작업에 적응하는 Prithvi의 역량을 입증하고 데이터 효율성을 평가한다.
- 지구과학 커뮤니티의 발전을 가속화하기 위해 모델 가중치, 아키텍처, 추론 도구의 오픈소스 접근을 제공한다.
제안 방법
- 지리공간 데이터에 대한 데이터 탐색, 전처리, 사전 학습, 추론을 연결하는 분산형 확장 가능한 프레임워크를 제안한다.
- Six HLS 밴드에서 ViT 백본을 가진 마스크드 오토인코더(MAE)로 Prithvi(100M 파라미터)를 사전 학습한다.
- 3D 위치 및 3D 패치 임베딩을 포함한 3D 시공간 임베딩으로 MAE를 확장하여 다중 시점, 다중 스펙트럼 입력을 처리한다.
- Song 기반 데이터 로딩을 Zarr과 함께 사용하여 사전 학습 중 효율적인 스트리밍과 I/O 병목 감소를 달성한다.
- 사전 학습된 인코더를 다운스트림 작업에 맞춘 헤드와 손실 함수로 mmsegmentation을 사용하여 미세 조정한다(디코더 헤드가 태스크 특화).
- 데이터 로딩 효율성을 평가하고 미세 조정 전략(전체 모델, 디코더만, 비사전 학습 베이스라인)을 비교한다.
실험 결과
연구 질문
- RQ1RQ1: 지구과학에서 기초 모델을 설계하고 평가하는 데 어떤 요인이 핵심인가?
- RQ2RQ2: 반복적이고 노이즈가 많은 원격 감지 데이터에서 노이즈와 중복을 제거하면서 어떻게 효과적으로 기초 모델을 사전 학습할 수 있는가?
- RQ3RQ3: 다양한 학습 특성을 활용하여 지구과학 도메인 전반에 걸쳐 상당히 적은 라벨 데이터로 일반화할 수 있는가?
주요 결과
| 배치/GPU | 작업자 | 프리패치 | 에폭 평균 시간 (초) |
|---|---|---|---|
| GeoTiff 64 GPUs | 16 | 1 | 384 |
| GeoTiff 8 GPUs | 128 | 8 | 690 |
| Zarr 8 GPUs | 128 | 2 | 381 |
- 사전 학습된 Prithvi는 무작위 가중치에 비해 미세 조정을 가속한다.
- Prithvi는 다중 시점 구름 보정에서 조건부 GAN보다 최대 5% 포인트(SSI에서 5.7%) 앞선다.
- 지리공간 통계에 대한 층화 샘플링은 다양한 사전학습 데이터를 제공하여 과대표시된 풍경에서의 편향을 줄인다.
- Zarr 기반 데이터 로딩은 에폭 시간을 대폭 단축하고 GeoTiff 로딩을 능가하며 대형 GPU 클러스터로의 확장을 가능하게 한다.
- 3D 시공간 패치에서 MAE로의 사전 학습은 다중 시점, 다중 스펙트럼 위성 영상을 효과적으로 처리한다.
- HuggingFace에서 Prithvi-100M 가중치와 프레임워크의 오픈 소스 공개는 재현성과 커뮤니티 협업을 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.