[논문 리뷰] SiT: Self-supervised vIsion Transformer
SiT는 그룹 마스킹 모델 학습(GMML)으로 Vision Transformer의 자체 감독식 사전 학습을 수행하고, 마스킹 토큰 재구성 및 대조 학습을 통해 소형/중형 데이터에서 감독 사전 학습보다 우수하고 대규모 데이터에서도 경쟁력을 보이는 방법을 제시합니다.
Self-supervised learning methods are gaining increasing traction in computer vision due to their recent success in reducing the gap with supervised learning. In natural language processing (NLP) self-supervised learning and transformers are already the methods of choice. The recent literature suggests that the transformers are becoming increasingly popular also in computer vision. So far, the vision transformers have been shown to work well when pretrained either using a large scale supervised data or with some kind of co-supervision, e.g. in terms of teacher network. These supervised pretrained vision transformers achieve very good results in downstream tasks with minimal changes. In this work we investigate the merits of self-supervised learning for pretraining image/vision transformers and then using them for downstream classification tasks. We propose Self-supervised vIsion Transformers (SiT) and discuss several self-supervised training mechanisms to obtain a pretext model. The architectural flexibility of SiT allows us to use it as an autoencoder and work with multiple self-supervised tasks seamlessly. We show that a pretrained SiT can be finetuned for a downstream classification task on small scale datasets, consisting of a few thousand images rather than several millions. The proposed approach is evaluated on standard datasets using common protocols. The results demonstrate the strength of the transformers and their suitability for self-supervised learning. We outperformed existing self-supervised learning methods by large margin. We also observed that SiT is good for few shot learning and also showed that it is learning useful representation by simply training a linear classifier on top of the learned features from SiT. Pretraining, finetuning, and evaluation codes will be available under: https://github.com/Sara-Ahmed/SiT.
연구 동기 및 목표
- 시각 트랜스포머에 대해 라벨 데이터에 대한 의존도를 줄이고 자체 감독 학습(SSL)을 활용하도록 동기를 제시한다.
- 제한된 데이터에서 ViTs가 로컬 유도 바이어스를 학습하도록 GMML을 제안한다.
- 재구성 및 대조 학습과 같은 다중 작업 자가 지도 목표를 지원하는 트랜스포머 기반 자동인코더를 개발한다.
- SiT를 이용한 SSL이 여러 데이터셋과 이전/전이 시나리오에서 감독 학습 사전학습보다 우수함을 보여준다.
제안 방법
- 가벼운 디코더를 갖춘 비전 트랜스포머(ViT) 백본을 채택하여 트랜스포머 자동인코더를 형성한다.
- 토큰 그룹을 마스킹하여 로컬 이미지 콘텐츠를 재구성하는 방식으로 Group Masked Model Learning(GMML)을 적용한다.
- 증강된 뷰 간 재구성 손실(L_recons)과 대조 손실(L_contr)을 함께 최적화한다.
- 표현의 안정성을 향상시키기 위해 대조 학습에 모멘텀 인코더를 활용한다.
- 엔드투엔드 학습은 L_total = alpha * L_recons + L_contr를 사용하며, 작은 데이터셋과 큰 데이터셋에 대해 alpha를 조정한다.
실험 결과
연구 질문
- RQ1GMML이 제한된 감독으로도 비라벨 데이터로부터 비전 트랜스포머가 효과적인 표현을 학습하게 할 수 있는가?
- RQ2작은/중간 데이터셋에서 SiT를 사용한 자체 감독 사전학습이 감독 사전학습보다 우수한가?
- RQ3SiT가 도메인 전이 및 다운스트림 과제에 대해 미세조정했을 때 어떤 성능을 보이는가?
- RQ4재구성과 대조 목표의 결합이 ViT에 미치는 영향은 무엇인가?
- RQ5가벼운 트랜스포머 디코더가 ViTs에서 효과적인 SSL에 충분한가?
주요 결과
| 방법 | Flowers | Pets | CUB | Aircraft | STL10 | Cars | CIFAR10 | CIFAR100 |
|---|---|---|---|---|---|---|---|---|
| Random init. | 68.8 | 47.5 | 25.3 | 31.1 | 77.1 | 27.4 | 96.9 | 77.8 |
| MoCo-v3 [72] | 88.9 | 69.0 | 53.1 | 62.5 | 95.4 | 84.0 | 97.3 | 83.4 |
| Dino [73] | 82.4 | 58.0 | 43.6 | 49.3 | 92.1 | 73.0 | 96.8 | 78.9 |
| MAE [57] | 86.9 | 73.0 | 59.4 | 69.0 | – | 91.0 | – | – |
| SiT | 92.8 | 84.7 | 71.2 | 77.8 | 96.5 | 92.1 | 98.2 | 85.2 |
- SiT는 외부 데이터 없이 사전학습될 때 여러 소형/중형 데이터셋에서 감독 사전학습 및 기존 SSL 방법을 지속적으로 능가한다.
- 소형 데이터셋에서 SiT는 여러 파인튜닝 과제에서 대안들보다 우수한 성능 등 주목할 만한 향상을 달성한다.
- 더 큰 데이터로 사전학습되었을 때 SiT는 더 큰 모델이나 데이터를 사용하는 최첨단 SSL 방법과 동등하거나 이를 상회한다.
- GMML은 ViT가 부분 토큰 손상으로부터 로컬 유도 바이어스를 학습하도록 하여 다운스트림 작업에서 일반화 성능을 향상시킨다.
- SiT는 강한 도메인 전이 능력과 목표 데이터셋에서의 경쟁력 있는 성능을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.