QUICK REVIEW

[論文レビュー] Self-Supervised Learning with Swin Transformers

Zhenda Xie, Yutong Lin|arXiv (Cornell University)|May 10, 2021

Domain Adaptation and Few-Shot Learning参考文献 18被引用数 112

ひとこと要約

MoBY は Swin Transformer バックボーンを備えた MoCo v2 と BYOL を組み合わせ、軽量な工夫と調整済みハイパーパラメータを用いて、強力な ImageNet 線形評価と下流タスク転移の比較可能性を達成する。

ABSTRACT

We are witnessing a modeling shift from CNN to Transformers in computer vision. In this work, we present a self-supervised learning approach called MoBY, with Vision Transformers as its backbone architecture. The approach basically has no new inventions, which is combined from MoCo v2 and BYOL and tuned to achieve reasonably high accuracy on ImageNet-1K linear evaluation: 72.8% and 75.0% top-1 accuracy using DeiT-S and Swin-T, respectively, by 300-epoch training. The performance is slightly better than recent works of MoCo v3 and DINO which adopt DeiT as the backbone, but with much lighter tricks. More importantly, the general-purpose Swin Transformer backbone enables us to also evaluate the learnt representations on downstream tasks such as object detection and semantic segmentation, in contrast to a few recent approaches built on ViT/DeiT which only report linear evaluation results on ImageNet-1K due to ViT/DeiT not tamed for these dense prediction tasks. We hope our results can facilitate more comprehensive evaluation of self-supervised learning methods designed for Transformer architectures. Our code and models are available at https://github.com/SwinTransformer/Transformer-SSL, which will be continually enriched.

研究の動機と目的

分類と密予測タスクのために Transformer バックボーンを用いた自己教師付き学習（SSL）を研究する動機づけ。
Swin Transformers と MoCo v2/ BYOL を組み合わせた軽量 SSL 手法 MoBY を提示。
ImageNet-1K の線形性能と COCO オブジェクト検出/セグメンテーション、ADE20K セマンティックセグメンテーションへの転送を評価。
Transformer アーキテクチャを用いた今後の SSL 研究を導くベースラインとアブレーションを提供。

提案手法

MoBY は MoCo v2 風のモメンタムエンコーダ、キュー、対比損失を BYOL 風の非対称エンコーダ、拡張、モメンタムスケジュールと組み合わせる。
オンラインとターゲットの二つのエンコーダ。2 層の MLP プロジェクタを搭載；オンラインは2層の予測ヘッドを追加；ターゲットはオンラインの移動平均でモメンタムを増大させつつ更新。
AdamW オプティマイザを用い、固定学習率 (0.001) およびウェイト減衰 (0.05)；キューサイズ K はデフォルトで 4096。
非対称ドロップパス正則化を適用；ターゲットはモメンタムで更新；温度 tau および他のハイパーパラメータを調整。
Swin Transformer (Swin-T) をデフォルトのバックボーンとして下流タスク評価を可能にする；線形評価で DeiT-S と比較。
ImageNet-1K の線形評価における300エポックのトレーニング regime、標準拡張と5エポックのウォームアップ。

実験結果

リサーチクエスチョン

RQ1Swin Transformer バックボーンを用いた ImageNet-1K 線形評価で MoBY は他の SSL 手法（MoCo v3、DINO）や DeiT バックボーンと比較してどの程度良いのか？
RQ2Swin バックボーンを用いた場合、MoBY から学習された表現は COCO オブジェクト検出/インスタンスセグメンテーションや ADE20K セマンティックセグメンテーションなどの下流タスクへ効果的に転移するか？
RQ3アーキテクチャの選択（Swin-T 対 DeiT-S）や特定の正則化工夫（非対称ドロップパス、キューサイズ、温度）の SSL パフォーマンスへの影響は？
RQ4Transformer バックボーンを用いた軽量 SSL の工夫は、下流タスクで教師あり事前学習との差を縮めることができるか？

主な発見

手法	アーキテクチャ	エポック数	パラメータ (M)	FLOPs (G)	img/s	Top-1 acc (%)
Sup.	DeiT-S	300	22	4.6	940.4	79.8
Sup.	Swin-T	300	29	4.5	755.2	81.3
MoCo v3	DeiT-S	300	22	4.6	940.4	72.5
DINO	DeiT-S	300	22	4.6	940.4	72.5
DINO †	DeiT-S	300	22	4.6	940.4	75.9
MoBY	DeiT-S	300	22	4.6	940.4	72.8
MoBY	Swin-T	100	29	4.5	755.2	70.9
MoBY	Swin-T	300	29	4.5	755.2	75.0

MoBY は DeiT-S で 300 エポック時の ImageNet-1K 線形評価で top-1 accuracy 72.8%、Swin-T では 300 エポックで 75.0% を達成。
Swin-T は同じ300エポック regime で DeiT-S を上回り 2.2 ポーセントポイント。
MoBY with Swin-T は COCO および ADE20K の下流性能で、監督あり事前学習と同等またはそれに近く、いくつかの指標は同等またはわずかな差。
MoCo v3/DINO 風の工夫（例：BN 前の MLP など）を適用すると利益が得られ（例：100 エポックで top-1 +1.1%）潜在的な改善の余地。
MoBY の線形評価と転移結果は、ResNet ベース SSL 方式と比較して Transformer アーキテクチャでの SSL に大きな改善余地を示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。