Skip to main content
QUICK REVIEW

[論文レビュー] Extending global-local view alignment for self-supervised learning with remote sensing imagery

Xinye Wanyan, Sachith Seneviratne|arXiv (Cornell University)|Mar 12, 2023
Remote-Sensing Image Classification被引用数 10
ひとこと要約

本論文はDINO-TPとDINO-MCを導入し、時系列ポジティブビューと多サイズローカルクロップを用いてDINOをリモートセンシングへ拡張し、さまざまなバックボーンとタスクで表現を改善する。特にDINO-MCは前訓練データと計算を削減しつつ高性能を達成。

ABSTRACT

Since large number of high-quality remote sensing images are readily accessible, exploiting the corpus of images with less manual annotation draws increasing attention. Self-supervised models acquire general feature representations by formulating a pretext task that generates pseudo-labels for massive unlabeled data to provide supervision for training. While prior studies have explored multiple self-supervised learning techniques in remote sensing domain, pretext tasks based on local-global view alignment remain underexplored, despite achieving state-of-the-art results on natural imagery. Inspired by DINO, which employs an effective representation learning structure with knowledge distillation based on global-local view alignment, we formulate two pretext tasks for self-supervised learning on remote sensing imagery (SSLRS). Using these tasks, we explore the effectiveness of positive temporal contrast as well as multi-sized views on SSLRS. We extend DINO and propose DINO-MC which uses local views of various sized crops instead of a single fixed size in order to alleviate the limited variation in object size observed in remote sensing imagery. Our experiments demonstrate that even when pre-trained on only 10% of the dataset, DINO-MC performs on par or better than existing state-of-the-art SSLRS methods on multiple remote sensing tasks, while using less computational resources. All codes, models, and results are released at https://github.com/WennyXY/DINO-MC.

研究の動機と目的

  • ラベル付けコストと豊富なラベル無しリモートセンシング画像を改善された自己教師付表現学習で解決する。
  • DINOフレームワーク内で時系列ポジティブ対比(DINO-TP)と多サイズローカルクロップ(DINO-MC)を調査する。
  • 複数のリモートセンシングタスクにおけるバックボーン(ViT、Swin、ResNet、WRN)を評価する。
  • 前訓練データとリソースを大幅に削減してもDINO-MCが最先端結果を達成できることを示す。

提案手法

  • DINOを二つのバリアントで拡張: DINO-TPはトレーニング時の正例として時系列ビューを使用。
  • DINO-MCはマルチクロップのローカルビューストラテジーとカラー変換拡張を導入し、多様なローカルビューを作成。
  • EMAで更新される教師モデルと崩壊防止のセンタリング/シャープニングを用いた教師-生徒知識蒸留を適用。
  • SeCo-100Kで事前訓練し、下流タスクで線形プロービング、KNN、エンドツーエンド微調整で表現を評価。
  • EuroSAT、BigEarthNet-S2、OSCDデータセットを対象にViT-small、Swin-tiny、ResNet-50、WRN-50-2のバックボーンで実験。

実験結果

リサーチクエスチョン

  • RQ1時系列ポジティブ対比はリモートセンシングの自己教師付き表現を改善できるか(DINO-TP)?
  • RQ2マルチサイズのローカルクロップ(DINO-MC)はリモートセンシング画像の意味内容学習を強化するか?
  • RQ3異なるバックボーンは土地利用分類と変化検出タスクにおけるSSLRS性能にどのような影響を与えるか?
  • RQ4限られた前訓練データと比較してDINO-MCはSeCoや他のベースラインとどうか?

主な発見

ModelBackbone#imagesKNNLinear
MoCo-V2ResNet-501M-83.72
SeCo-1MResNet-501M-93.14
DINOResNet-50100K90.0989.65
DINO-MCResNet-50100K93.9495.59
DINO-TPResNet-50100K79.0586.70
DINOWRN-50-2100K92.7491.65
DINO-MCWRN-50-2100K94.6595.70
DINO-TPWRN-50-2100K86.3788.15
DINOViT-small100K93.3591.50
DINO-MCViT-small100K93.4194.09
DINO-TPViT-small100K93.1593.89
DINOSwin-tiny100K92.1586.87
DINO-MCSwin-tiny100K93.2290.54
DINO-TPSwin-tiny100K92.8391.94
  • DINO-MCはEuroSATの線形およびKNNプロービングで複数のバックボーンに対してDINOおよびDINO-TPを上回る。
  • WRN-50-2を100K画像で事前訓練したDINO-MCはSeCoの1M画像の線形プロービング精度より2.56パーセンテージポイント高い。
  • 下流タスクのエンドツーエンドで、前訓練データを大幅に減らしてもDINO-MCは最先端ベースラインと同等または上回る。
  • OSCDの変化検出では、DINO-MCはさまざまなバックボーンでSeCoおよびDINOよりF1スコアを改善する一方で、DINO-TPはこのタスクで不安定になる場合がある。
  • タスク/バックボーンを通じて、ViT-smallとSwin-tinyはResNet-50とWRN-50-2と比べSSLRSの性能がより一貫している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。