QUICK REVIEW

[논문 리뷰] Extending global-local view alignment for self-supervised learning with remote sensing imagery

Xinye Wanyan, Sachith Seneviratne|arXiv (Cornell University)|2023. 03. 12.

Remote-Sensing Image Classification인용 수 10

한 줄 요약

본 논문은 원격 탐지용 DINO를 확장하기 위해 시간적 양성 뷰와 다중 크기의 로컬 크롭을 사용하는 DINO-TP 및 DINO-MC를 제안하고, 다양한 백본과 태스크에서 표현력을 향상시킨다. 특히 DINO-MC는 사전 학습 데이터 및 계산량을 줄인 상태에서도 강력한 성능을 달성한다.

ABSTRACT

Since large number of high-quality remote sensing images are readily accessible, exploiting the corpus of images with less manual annotation draws increasing attention. Self-supervised models acquire general feature representations by formulating a pretext task that generates pseudo-labels for massive unlabeled data to provide supervision for training. While prior studies have explored multiple self-supervised learning techniques in remote sensing domain, pretext tasks based on local-global view alignment remain underexplored, despite achieving state-of-the-art results on natural imagery. Inspired by DINO, which employs an effective representation learning structure with knowledge distillation based on global-local view alignment, we formulate two pretext tasks for self-supervised learning on remote sensing imagery (SSLRS). Using these tasks, we explore the effectiveness of positive temporal contrast as well as multi-sized views on SSLRS. We extend DINO and propose DINO-MC which uses local views of various sized crops instead of a single fixed size in order to alleviate the limited variation in object size observed in remote sensing imagery. Our experiments demonstrate that even when pre-trained on only 10% of the dataset, DINO-MC performs on par or better than existing state-of-the-art SSLRS methods on multiple remote sensing tasks, while using less computational resources. All codes, models, and results are released at https://github.com/WennyXY/DINO-MC.

연구 동기 및 목표

라벨링 비용과 방대하게 존재하는 비라벨 원격 탐지 이미지를 해결하기 위해 자기지도 특징 학습을 개선한다.
DINO 프레임워크 내에서 시간적 양성 대조(DINO-TP)와 다중 크기 로컬 크롭(DINO-MC)을 탐구한다.
다양한 원격 탐지 태스크에서 백본(ViT, Swin, ResNet, WRN)을 평가한다.
제한된 사전 학습 데이터와 자원으로도 DINO-MC가 최첨단 성과를 달성할 수 있음을 보여준다.

제안 방법

두 가지 변형으로 DINO를 확장한다: DINO-TP는 훈련 시 시간적 뷰를 양성 인스턴스로 사용한다.
다중 크롭 로컬 뷰 전략과 색상 변환 증강을 통해 다양한 로컬 뷰를 생성하는 DINO-MC를 도입한다.
교사-학생 지식 증류를 EMA로 업데이트되는 교사와 중심화/샤프닝으로 붕괴를 방지한다.
SeCo-100K에서 사전 학습하고, 선형 프로빙, KNN, 다운스트림 태스크에서의 끝-to-끝 미세조정으로 표현을 평가한다.
EuroSAT, BigEarthNet-S2, OSCD 데이터셋에서 ViT-small, Swin-tiny, ResNet-50, WRN-50-2 백본으로 실험한다.

실험 결과

연구 질문

RQ1시간적 양성 대조가 원격 탐지의 자기지도 표현을 향상시킬 수 있는가(DINO-TP)?
RQ2다중 크기의 로컬 크롭(DINO-MC)이 원격 탐지 이미지에서 의미 내용 학습을 향상시키는가?
RQ3다양한 백본이 SSLRS 성능에 어떤 영향을 미치는가(토지 이용 분류 및 변화 탐지 태스크)?
RQ4SeCo 및 다른 베이스라인과 비교하여 제한된 사전 학습 데이터에서 DINO-MC의 성능은 어떤가?

주요 결과

모델	백본	#이미지	KNN	선형
MoCo-V2	ResNet-50	1M	-	83.72
SeCo-1M	ResNet-50	1M	-	93.14
DINO	ResNet-50	100K	90.09	89.65
DINO-MC	ResNet-50	100K	93.94	95.59
DINO-TP	ResNet-50	100K	79.05	86.70
DINO	WRN-50-2	100K	92.74	91.65
DINO-MC	WRN-50-2	100K	94.65	95.70
DINO-TP	WRN-50-2	100K	86.37	88.15
DINO	ViT-small	100K	93.35	91.50
DINO-MC	ViT-small	100K	93.41	94.09
DINO-TP	ViT-small	100K	93.15	93.89
DINO	Swin-tiny	100K	92.15	86.87
DINO-MC	Swin-tiny	100K	93.22	90.54
DINO-TP	Swin-tiny	100K	92.83	91.94

다중 백본에 걸쳐 EuroSAT의 선형 및 KNN 프로빙에서 DINO-MC가 DINO 및 DINO-TP를 능가한다.
WRN-50-2로 100K 이미지에서 사전 학습된 DINO-MC는 1M 이미지에서 사전 학습된 SeCo보다 선형 탐색 정확도가 2.56pp 더 높다.
DINO-MC는 현 상태의 최첨단 베이스라인과 맞먹거나 상회하며 EuroSAT 및 BigEarthNet에서 엔드 투 엔드 태스크를 더 적은 사전 학습 데이터로 달성한다.
OSCD 변화 탐지에서 DINO-MC는 다양한 백본으로 SeCo와 DINO보다 F1 점수를 향상시키는 반면, DINO-TP는 이 태스크에서 불안정할 수 있다.
태스크/백본에 걸쳐 ViT-small과 Swin-tiny가 ResNet-50 및 WRN-50-2에 비해 SSLRS에서 더 일관된 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.