[論文レビュー] SiT: Self-supervised vIsion Transformer
SiT は Vision Transformer の自己教師付き事前学習のために Group Masked Model Learning (GMML) を導入し、マスクされたトークン再構築とコントラスト学習を用いて、小規模/中規模データセットで supervision pretraining を上回り、大規模データでも競合する。
Self-supervised learning methods are gaining increasing traction in computer vision due to their recent success in reducing the gap with supervised learning. In natural language processing (NLP) self-supervised learning and transformers are already the methods of choice. The recent literature suggests that the transformers are becoming increasingly popular also in computer vision. So far, the vision transformers have been shown to work well when pretrained either using a large scale supervised data or with some kind of co-supervision, e.g. in terms of teacher network. These supervised pretrained vision transformers achieve very good results in downstream tasks with minimal changes. In this work we investigate the merits of self-supervised learning for pretraining image/vision transformers and then using them for downstream classification tasks. We propose Self-supervised vIsion Transformers (SiT) and discuss several self-supervised training mechanisms to obtain a pretext model. The architectural flexibility of SiT allows us to use it as an autoencoder and work with multiple self-supervised tasks seamlessly. We show that a pretrained SiT can be finetuned for a downstream classification task on small scale datasets, consisting of a few thousand images rather than several millions. The proposed approach is evaluated on standard datasets using common protocols. The results demonstrate the strength of the transformers and their suitability for self-supervised learning. We outperformed existing self-supervised learning methods by large margin. We also observed that SiT is good for few shot learning and also showed that it is learning useful representation by simply training a linear classifier on top of the learned features from SiT. Pretraining, finetuning, and evaluation codes will be available under: https://github.com/Sara-Ahmed/SiT.
研究の動機と目的
- ビジョン・トランスフォーマーに対するラベル付きデータの依存を減らす動機づけとして、自己教師付き学習(SSL)を活用する。
- 限られたデータから局所的な帰納バイアスを学習できるように GMML を提案する。
- 再構成とコントラスト学習という複数タスクの自己監督目的に対応する、トランスフォーマー型オートエンコーダを開発する。
- SiT を用いた SSL が、複数のデータセットと転移シナリオにおいて、教師あり事前学習を上回ることを示す。
提案手法
- 軽量デコーダを備えた Vision Transformer (ViT) バックボーンを採用し、トランスフォーマー型オートエンコーダを構成する。
- トークンのグループをマスクして局所的な画像内容を再構成することで、Group Masked Model Learning (GMML) を適用する。
- 増強されたビュー間で再構成損失(L_recons)とコントラスト損失(L_contr)を同時に最適化する。
- 表現の安定性を向上させるためにコントラスト学習にモーメンタムエンコーダを利用する。
- エンドツーエンドの学習では L_total = alpha * L_recons + L_contr を用い、alpha は小規模データと大規模データで調整される。
実験結果
リサーチクエスチョン
- RQ1GMML は限られた監督下で、ラベルなしデータからビジョン・トランスフォーマーが有効な表現を学習することを可能にするだろうか?
- RQ2SiT を用いた自己教師付きプリトレーニングは、小規模/中規模データセットで監督付きプリトレーニングを上回るだろうか?
- RQ3下流タスクでのドメイン転送とファインチューニングの下で SiT はどのように機能するか?
- RQ4ViTs における再構成目的とコントラスト目的を組み合わせることの影響はどの程度か?
- RQ5軽量なトランスフォーマー・デコーダは ViTs における効果的な SSL に十分か?
主な発見
| Method | Flowers | Pets | CUB | Aircraft | STL10 | Cars | CIFAR10 | CIFAR100 |
|---|---|---|---|---|---|---|---|---|
| ランダム初期化 | 68.8 | 47.5 | 25.3 | 31.1 | 77.1 | 27.4 | 96.9 | 77.8 |
| MoCo-v3 [72] | 88.9 | 69.0 | 53.1 | 62.5 | 95.4 | 84.0 | 97.3 | 83.4 |
| Dino [73] | 82.4 | 58.0 | 43.6 | 49.3 | 92.1 | 73.0 | 96.8 | 78.9 |
| MAE [57] | 86.9 | 73.0 | 59.4 | 69.0 | – | 91.0 | – | – |
| SiT | 92.8 | 84.7 | 71.2 | 77.8 | 96.5 | 92.1 | 98.2 | 85.2 |
- SiT は外部データなしで事前学習した場合、いくつかの小規模/中規模データセットで一貫して監督付き事前学習および従来の SSL 手法を上回る。
- 小規模データセットでは、SiT は著しい改善を達成する(例:複数のファインチューニングタスクで代替手法を上回る)。
- より大規模なデータで事前学習した場合、SiT はより大きなモデルやデータを使用する最先端の SSL 手法と同等、あるいはそれを上回る。
- GMML は ViTs が部分的なトークン破損から局所的帰納バイアスを学習することを可能にし、下流タスクの汎化性能を向上させる。
- SiT は強力なドメイン転送能力を示し、ターゲットデータセットでファインチューニングした場合に競争力のある性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。