[論文レビュー] Extending global-local view alignment for self-supervised learning with remote sensing imagery
本論文はDINO-TPとDINO-MCを導入し、時系列ポジティブビューと多サイズローカルクロップを用いてDINOをリモートセンシングへ拡張し、さまざまなバックボーンとタスクで表現を改善する。特にDINO-MCは前訓練データと計算を削減しつつ高性能を達成。
Since large number of high-quality remote sensing images are readily accessible, exploiting the corpus of images with less manual annotation draws increasing attention. Self-supervised models acquire general feature representations by formulating a pretext task that generates pseudo-labels for massive unlabeled data to provide supervision for training. While prior studies have explored multiple self-supervised learning techniques in remote sensing domain, pretext tasks based on local-global view alignment remain underexplored, despite achieving state-of-the-art results on natural imagery. Inspired by DINO, which employs an effective representation learning structure with knowledge distillation based on global-local view alignment, we formulate two pretext tasks for self-supervised learning on remote sensing imagery (SSLRS). Using these tasks, we explore the effectiveness of positive temporal contrast as well as multi-sized views on SSLRS. We extend DINO and propose DINO-MC which uses local views of various sized crops instead of a single fixed size in order to alleviate the limited variation in object size observed in remote sensing imagery. Our experiments demonstrate that even when pre-trained on only 10% of the dataset, DINO-MC performs on par or better than existing state-of-the-art SSLRS methods on multiple remote sensing tasks, while using less computational resources. All codes, models, and results are released at https://github.com/WennyXY/DINO-MC.
研究の動機と目的
- ラベル付けコストと豊富なラベル無しリモートセンシング画像を改善された自己教師付表現学習で解決する。
- DINOフレームワーク内で時系列ポジティブ対比(DINO-TP)と多サイズローカルクロップ(DINO-MC)を調査する。
- 複数のリモートセンシングタスクにおけるバックボーン(ViT、Swin、ResNet、WRN)を評価する。
- 前訓練データとリソースを大幅に削減してもDINO-MCが最先端結果を達成できることを示す。
提案手法
- DINOを二つのバリアントで拡張: DINO-TPはトレーニング時の正例として時系列ビューを使用。
- DINO-MCはマルチクロップのローカルビューストラテジーとカラー変換拡張を導入し、多様なローカルビューを作成。
- EMAで更新される教師モデルと崩壊防止のセンタリング/シャープニングを用いた教師-生徒知識蒸留を適用。
- SeCo-100Kで事前訓練し、下流タスクで線形プロービング、KNN、エンドツーエンド微調整で表現を評価。
- EuroSAT、BigEarthNet-S2、OSCDデータセットを対象にViT-small、Swin-tiny、ResNet-50、WRN-50-2のバックボーンで実験。
実験結果
リサーチクエスチョン
- RQ1時系列ポジティブ対比はリモートセンシングの自己教師付き表現を改善できるか(DINO-TP)?
- RQ2マルチサイズのローカルクロップ(DINO-MC)はリモートセンシング画像の意味内容学習を強化するか?
- RQ3異なるバックボーンは土地利用分類と変化検出タスクにおけるSSLRS性能にどのような影響を与えるか?
- RQ4限られた前訓練データと比較してDINO-MCはSeCoや他のベースラインとどうか?
主な発見
| Model | Backbone | #images | KNN | Linear |
|---|---|---|---|---|
| MoCo-V2 | ResNet-50 | 1M | - | 83.72 |
| SeCo-1M | ResNet-50 | 1M | - | 93.14 |
| DINO | ResNet-50 | 100K | 90.09 | 89.65 |
| DINO-MC | ResNet-50 | 100K | 93.94 | 95.59 |
| DINO-TP | ResNet-50 | 100K | 79.05 | 86.70 |
| DINO | WRN-50-2 | 100K | 92.74 | 91.65 |
| DINO-MC | WRN-50-2 | 100K | 94.65 | 95.70 |
| DINO-TP | WRN-50-2 | 100K | 86.37 | 88.15 |
| DINO | ViT-small | 100K | 93.35 | 91.50 |
| DINO-MC | ViT-small | 100K | 93.41 | 94.09 |
| DINO-TP | ViT-small | 100K | 93.15 | 93.89 |
| DINO | Swin-tiny | 100K | 92.15 | 86.87 |
| DINO-MC | Swin-tiny | 100K | 93.22 | 90.54 |
| DINO-TP | Swin-tiny | 100K | 92.83 | 91.94 |
- DINO-MCはEuroSATの線形およびKNNプロービングで複数のバックボーンに対してDINOおよびDINO-TPを上回る。
- WRN-50-2を100K画像で事前訓練したDINO-MCはSeCoの1M画像の線形プロービング精度より2.56パーセンテージポイント高い。
- 下流タスクのエンドツーエンドで、前訓練データを大幅に減らしてもDINO-MCは最先端ベースラインと同等または上回る。
- OSCDの変化検出では、DINO-MCはさまざまなバックボーンでSeCoおよびDINOよりF1スコアを改善する一方で、DINO-TPはこのタスクで不安定になる場合がある。
- タスク/バックボーンを通じて、ViT-smallとSwin-tinyはResNet-50とWRN-50-2と比べSSLRSの性能がより一貫している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。