QUICK REVIEW

[논문 리뷰] Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model

Di Wang, Qiming Zhang|arXiv (Cornell University)|2022. 08. 08.

Remote-Sensing Image Classification인용 수 38

한 줄 요약

논문은 대형 RS 데이터셋에서 MAE로 일반 ViT를 사전 학습하고(RS 데이터) RVSA를 도입하여 RS 작업에 적용하며, DOTA-V1.0에서 객체 탐지에서 최첨단 성능을 달성하는 동시에 분류 및 분할에서 경쟁력 있는 결과와 향상된 데이터 효율성을 제공합니다.

ABSTRACT

Large-scale vision foundation models have made significant progress in visual tasks on natural images, with vision transformers being the primary choice due to their good scalability and representation ability. However, large-scale models in remote sensing (RS) have not yet been sufficiently explored. In this paper, we resort to plain vision transformers with about 100 million parameters and make the first attempt to propose large vision models tailored to RS tasks and investigate how such large models perform. To handle the large sizes and objects of arbitrary orientations in RS images, we propose a new rotated varied-size window attention to replace the original full attention in transformers, which can significantly reduce the computational cost and memory footprint while learning better object representation by extracting rich context from the generated diverse windows. Experiments on detection tasks show the superiority of our model over all state-of-the-art models, achieving 81.24% mAP on the DOTA-V1.0 dataset. The results of our models on downstream classification and segmentation tasks also show competitive performance compared to existing advanced methods. Further experiments show the advantages of our models in terms of computational complexity and data efficiency in transferring.

연구 동기 및 목표

원격 탐지 데이터에서 일반 ViTs(~100M 매개변수)를 사전 학습하는 것이 RS 작업에 타당한지 입증한다.
비계층적(일반) ViT가 적절한 사전 학습으로 RS 작업에서 경쟁력 있는 성능을 달성할 수 있는지 조사한다.
RS 이미지의 임의 방향과 스케일을 처리하면서 계산량을 줄여 RVSA를 개발한다.
사전 학습된 일반 ViTs의 전이성, 효율성, 강건성을 RS 탐지, 분류 및 분할 작업에서 평가한다.

제안 방법

MAE로 MillionAID에서 대략 ~100M 매개변수를 가진 일반 ViT 및 ViTAE 백본을 비라벨링 설정으로 사전 학습한다.
RS 데이터의 임의 방향을 처리하기 위해 미세 조정 중 전체 자기 주의를 Rotated Varied-Size Attention(RVSA)로 대체한다.
학습된 윈도 구성에 회전 각도를 도입하여 방향성 있는 다양 크기 주의 윈도우를 가능하게 한다.
RS 백본을 구성하기 위해 선택된 계층에서 MHSA를 RVSA(및 변형 버전)로 대체하여 다운스트림 작업에 적합하게 한다.
장면 분류(UCM, AID, NWPU), 객체 탐지(DOTA-V1.0, DIOR-R), 분할 등 RS 작업에서 표준 RS 프레임워크를 사용해 학습 및 평가한다.

실험 결과

연구 질문

RQ1MAE로 RS 데이터에서 사전 학습된 일반 ViT 백본이 계층적 구조 없이 RS 작업에서 경쟁력 있는 결과를 달성할 수 있는가?
RQ2RVSA가 고정 윈도 주의에 비해 임의 방향과 스케일의 RS 이미지에서 ViT의 모델링 능력을 향상시키는가?
RQ3일반 ViTs의 RS 다운스트림 성능에 대한 사전 학습 규모와 마스크 비율의 영향은 어떤가?
RQ4RVSA를 적용한 일반 ViT가 정확도, 효율성, 전이성 면에서 최첨단 RS 모델과 비교했을 때 어떤 차이가 있는가?

주요 결과

MillionAID에서 MAE로 일반 ViT(ViT-B 및 ViTAE-B)를 사전 학습하면 미세 조정 후 RS 작업에서 경쟁력 있는 성능이 나타난다.
RVSA는 회전된 다양한 크기의 주의 윈도우를 가능하게 하여 RS 객체 탐지를 크게 향상시키며 DOTA-V1.0에서 81.24% mAP를 달성한다.
RVSA 기반 변형은 RS 장면 분류 및 분할 작업에서도 강력한 성능을 보이며 기존의 고급 방법과 경쟁력 있는 결과를 보여준다.
전이 시 계산 복잡도와 데이터 효율성 면에서 이 접근 방식의 이점을 보여준다.
RVSA의 윈도우 크기 7은 단편 분석에서 DOTA-V1.0 및 DIOR-R에서 최대 mAP를 달성하며, 적절한 윈도우 구성이 중요함을 보여준다.
RVSA 기반 주의가 윈도우 기반 주의를 통해 FLOPs와 메모리를 줄이면서도 풍부한 맥락 모델링을 유지하는 방식으로 대형 RS 영상에 확장 가능하다.
이 연구는 일반 ViTs를 RS 기반 모델의 유효한 백본으로 제시하고 RS 특성에 맞춘 특수 주의 메커니즘의 효과를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.