[논문 리뷰] A Billion-scale Foundation Model for Remote Sensing Images
본 논문은 MillionAID에서 MAE로 사전학습된 비전 트랜스포머의 매개변수 수를 증가시키는 것이 다운스트림 원격 감지 작업에 어떤 영향을 미치는지 연구합니다. 결과는 십억 규모의 모델이 회전 물체 탐지와 의미 분할에서 성능을 향상시키고 여러 벤치마크에서 최첨단(state-of-the-art)을 달성함을 보여줍니다.
As the potential of foundation models in visual tasks has garnered significant attention, pretraining these models before downstream tasks has become a crucial step. The three key factors in pretraining foundation models are the pretraining method, the size of the pretraining dataset, and the number of model parameters. Recently, research in the remote sensing field has focused primarily on the pretraining method and the size of the dataset, with limited emphasis on the number of model parameters. This paper addresses this gap by examining the effect of increasing the number of model parameters on the performance of foundation models in downstream tasks such as rotated object detection and semantic segmentation. We pretrained foundation models with varying numbers of parameters, including 86M, 605.26M, 1.3B, and 2.4B, to determine whether performance in downstream tasks improved with an increase in parameters. To the best of our knowledge, this is the first billion-scale foundation model in the remote sensing field. Furthermore, we propose an effective method for scaling up and fine-tuning a vision transformer in the remote sensing field. To evaluate general performance in downstream tasks, we employed the DOTA v2.0 and DIOR-R benchmark datasets for rotated object detection, and the Potsdam and LoveDA datasets for semantic segmentation. Experimental results demonstrated that, across all benchmark datasets and downstream tasks, the performance of the foundation models and data efficiency improved as the number of parameters increased. Moreover, our models achieve the state-of-the-art performance on several datasets including DIOR-R, Postdam, and LoveDA.
연구 동기 및 목표
- 원격 sensing 기초 모델에서 모델 스케일(매개변수 수)의 영향 조사.
- Scaling 효과를 검토하기 위해 MillionAID에서 MAE로 사전학습.
- 회전 물체 탐지와 의미 분할 벤치마크에서 다운스트림 성능 평가.
- 고해상도 RS 작업을 위한 비전 트랜스포머의 효과적인 스케일링 및 미세조정을 시연.
제안 방법
- 여러 매개변수 규모(86M, 605.26M, 1.3B, 2.4B)에서 MillionAID의 MAE로 비전 트랜스포머 백본을 사전학습.
- 12개 층을 유지한 채 숨은 크기, MLP 크기, 헤드 수, 병렬화를 조정하여 ViT를 확장하고 매개변수 영향 연구.
- 사전학습된 일반 ViT 백본을 ViTDET로 지역/전역 어텐션을 사용해 다운스트림 작업에 적합하도록 적응.
- 고해상도 작업을 위해 특성 맵을 업샘플링/다운샘플링하는 스케일 블록(전치 합성곱, 정규화, GELU, 풀링)을 사용.
- 회전 물체 탐지(DOTA v2.0, DIOR-R)와 의미 분할(Potsdam, LoveDA)에서 미세조정.
- 사전학습-미세조정 설정에는 MAE에서 마스킹된 패치 75% 재구성, 400 프리트레이닝 에폭, AdamW, 활성 체크포징이 있는 fp16 포함.

실험 결과
연구 질문
- RQ1모델 매개변수 수 증가가 원격 sensing 기초 모델의 다운스트림 성능을 향상시키는가?
- RQ2MAE로 MillionAID에서 사전학습된 십억 매개변수 비전 트랜스포머가 회전 물체 탐지 및 의미 분할에서 더 작은 모델을 능가하는가?
- RQ3원격 sensing 로컬라이제이션 작업에 효과적인 ViTDET, 스케일 블록, 병렬 어텐션 등의 아키텍처 적응은 무엇인가?
- RQ4표준 RS 벤치마크에서 더 큰 매개변수 수가 데이터 효율성 향상을 보여주는가?
- RQ5십억 규모의 RS 기초 모델이 DIOR-R, Potsdam, LoveDA에서 최첨단 결과를 달성하는가?
주요 결과
- 매개변수 수가 증가할수록 모든 벤치마크 및 다운스트림 작업에서 성능이 향상됩니다.
- 십억 규모(2.4B 파라미터) 모델이 여러 RS 데이터세트(DIOR-R, Potsdam, LoveDA를 포함)에서 최첨단 성능을 달성합니다.
- 병렬성 및 조정된 숨은 크기/MLP 크기로 비전 트랜스포머를 확장하면 회전 물체 탐지 및 의미 분할과 같은 물체 로컬라이제이션 작업을 효과적으로 지원합니다.
- MillionAID에서 MAE로의 사전학습은 다운스트림 RS 작업에 대한 강력한 도메인 내 표현을 제공하여 데이터 효율적인 미세조정을 가능하게 합니다.
- 로컬/글로벌 어텐션으로 구성된 ViTDET 기반의 다운스트림 헤드는 고해상도 RS 입력에 대한 계산 및 메모리 사용을 균형 잡습니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.