QUICK REVIEW

[論文レビュー] Extending global-local view alignment for self-supervised learning with remote sensing imagery

Xinye Wanyan, Sachith Seneviratne|arXiv (Cornell University)|Mar 12, 2023

Remote-Sensing Image Classification被引用数 10

ひとこと要約

本論文はDINO-TPとDINO-MCを導入し、時系列ポジティブビューと多サイズローカルクロップを用いてDINOをリモートセンシングへ拡張し、さまざまなバックボーンとタスクで表現を改善する。特にDINO-MCは前訓練データと計算を削減しつつ高性能を達成。

ABSTRACT

Since large number of high-quality remote sensing images are readily accessible, exploiting the corpus of images with less manual annotation draws increasing attention. Self-supervised models acquire general feature representations by formulating a pretext task that generates pseudo-labels for massive unlabeled data to provide supervision for training. While prior studies have explored multiple self-supervised learning techniques in remote sensing domain, pretext tasks based on local-global view alignment remain underexplored, despite achieving state-of-the-art results on natural imagery. Inspired by DINO, which employs an effective representation learning structure with knowledge distillation based on global-local view alignment, we formulate two pretext tasks for self-supervised learning on remote sensing imagery (SSLRS). Using these tasks, we explore the effectiveness of positive temporal contrast as well as multi-sized views on SSLRS. We extend DINO and propose DINO-MC which uses local views of various sized crops instead of a single fixed size in order to alleviate the limited variation in object size observed in remote sensing imagery. Our experiments demonstrate that even when pre-trained on only 10% of the dataset, DINO-MC performs on par or better than existing state-of-the-art SSLRS methods on multiple remote sensing tasks, while using less computational resources. All codes, models, and results are released at https://github.com/WennyXY/DINO-MC.

研究の動機と目的

ラベル付けコストと豊富なラベル無しリモートセンシング画像を改善された自己教師付表現学習で解決する。
DINOフレームワーク内で時系列ポジティブ対比（DINO-TP）と多サイズローカルクロップ（DINO-MC）を調査する。
複数のリモートセンシングタスクにおけるバックボーン（ViT、Swin、ResNet、WRN）を評価する。
前訓練データとリソースを大幅に削減してもDINO-MCが最先端結果を達成できることを示す。

提案手法

DINOを二つのバリアントで拡張: DINO-TPはトレーニング時の正例として時系列ビューを使用。
DINO-MCはマルチクロップのローカルビューストラテジーとカラー変換拡張を導入し、多様なローカルビューを作成。
EMAで更新される教師モデルと崩壊防止のセンタリング/シャープニングを用いた教師-生徒知識蒸留を適用。
SeCo-100Kで事前訓練し、下流タスクで線形プロービング、KNN、エンドツーエンド微調整で表現を評価。
EuroSAT、BigEarthNet-S2、OSCDデータセットを対象にViT-small、Swin-tiny、ResNet-50、WRN-50-2のバックボーンで実験。

実験結果

リサーチクエスチョン

RQ1時系列ポジティブ対比はリモートセンシングの自己教師付き表現を改善できるか（DINO-TP）？
RQ2マルチサイズのローカルクロップ（DINO-MC）はリモートセンシング画像の意味内容学習を強化するか？
RQ3異なるバックボーンは土地利用分類と変化検出タスクにおけるSSLRS性能にどのような影響を与えるか？
RQ4限られた前訓練データと比較してDINO-MCはSeCoや他のベースラインとどうか？

主な発見

Model	Backbone	#images	KNN	Linear
MoCo-V2	ResNet-50	1M	-	83.72
SeCo-1M	ResNet-50	1M	-	93.14
DINO	ResNet-50	100K	90.09	89.65
DINO-MC	ResNet-50	100K	93.94	95.59
DINO-TP	ResNet-50	100K	79.05	86.70
DINO	WRN-50-2	100K	92.74	91.65
DINO-MC	WRN-50-2	100K	94.65	95.70
DINO-TP	WRN-50-2	100K	86.37	88.15
DINO	ViT-small	100K	93.35	91.50
DINO-MC	ViT-small	100K	93.41	94.09
DINO-TP	ViT-small	100K	93.15	93.89
DINO	Swin-tiny	100K	92.15	86.87
DINO-MC	Swin-tiny	100K	93.22	90.54
DINO-TP	Swin-tiny	100K	92.83	91.94

DINO-MCはEuroSATの線形およびKNNプロービングで複数のバックボーンに対してDINOおよびDINO-TPを上回る。
WRN-50-2を100K画像で事前訓練したDINO-MCはSeCoの1M画像の線形プロービング精度より2.56パーセンテージポイント高い。
下流タスクのエンドツーエンドで、前訓練データを大幅に減らしてもDINO-MCは最先端ベースラインと同等または上回る。
OSCDの変化検出では、DINO-MCはさまざまなバックボーンでSeCoおよびDINOよりF1スコアを改善する一方で、DINO-TPはこのタスクで不安定になる場合がある。
タスク/バックボーンを通じて、ViT-smallとSwin-tinyはResNet-50とWRN-50-2と比べSSLRSの性能がより一貫している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。