QUICK REVIEW

[논문 리뷰] Self-Supervised Learning with Swin Transformers

Zhenda Xie, Yutong Lin|arXiv (Cornell University)|2021. 05. 10.

Domain Adaptation and Few-Shot Learning참고 문헌 18인용 수 112

한 줄 요약

MoBY는 Swin Transformer 백본과 함께 MoCo v2 및 BYOL을 결합하여 강력한 ImageNet 선형 평가와 유사한 다운스트림 태스크 전달을 달성하며, 더 간략한 기법과 조정된 하이퍼파라미터를 사용합니다.

ABSTRACT

We are witnessing a modeling shift from CNN to Transformers in computer vision. In this work, we present a self-supervised learning approach called MoBY, with Vision Transformers as its backbone architecture. The approach basically has no new inventions, which is combined from MoCo v2 and BYOL and tuned to achieve reasonably high accuracy on ImageNet-1K linear evaluation: 72.8% and 75.0% top-1 accuracy using DeiT-S and Swin-T, respectively, by 300-epoch training. The performance is slightly better than recent works of MoCo v3 and DINO which adopt DeiT as the backbone, but with much lighter tricks. More importantly, the general-purpose Swin Transformer backbone enables us to also evaluate the learnt representations on downstream tasks such as object detection and semantic segmentation, in contrast to a few recent approaches built on ViT/DeiT which only report linear evaluation results on ImageNet-1K due to ViT/DeiT not tamed for these dense prediction tasks. We hope our results can facilitate more comprehensive evaluation of self-supervised learning methods designed for Transformer architectures. Our code and models are available at https://github.com/SwinTransformer/Transformer-SSL, which will be continually enriched.

연구 동기 및 목표

변환기(backbone)를 사용하는 분류 및 밀집 예측 태스크 모두에 대해 SSL(자기지도 학습)을 연구하도록 동기를 부여한다.
Swin Transformer와 결합된 MoCo v2 및 BYOL를 결합한 경량의 SSL 방법인 MoBY를 제시한다.
ImageNet-1K 선형 성능 평가와 COCO 객체 검출/세분화 및 ADE20K 의미론적 분할로의 전달을 평가한다.
트랜스포머 아키텍처를 사용하는 향후 SSL 연구를 안내하기 위한 기준선 및 소거 실험을 제공한다.

제안 방법

MoBY는 MoCo v2 스타일의 모멘텀 인코더, 큐를 키로 사용하는 큐, 대조 손실을 BYOL 스타일의 비대칭 인코더, 증강 및 모멘텀 스케줄과 결합한다.
2개의 인코더(온라인 및 타깃)와 2층 MLP 프로젝터; 온라인은 2층 예측 헤드를 추가한다; 타깃은 증가하는 모멘텀으로 온라인의 이동 평균이다.
AdamW 옵티마이저를 고정 학습률(0.001)과 가중치 감소(0.05)로 사용한다; 큐 크기 K는 기본값 4096이다.
비대칭 드롭 패스 정규화가 적용된다; 타깃은 모멘텀으로 업데이트되며; 온도 tau 및 기타 하이퍼파라미터가 조정된다.
Swin Transformer(Swin-T)를 기본 백본으로 사용하여 다운스트림 태스크 평가를 가능하게 한다; 선형 평가에서 DeiT-S와 비교된다.
일반 증강 및 5에폭 워밍업을 포함한 ImageNet-1K 선형 평가를 위한 300 에폭 학습 체계이다.

실험 결과

연구 질문

RQ1Swin-T 백본을 사용한 MoBY가 MoCo v3, DINO 및 DeiT 백본과 비교했을 때 ImageNet-1K 선형 평가에서 얼마나 잘 작동하는가?
RQ2Swin 백본을 사용할 때 MoBY로 학습된 표현이 COCO 객체 검출/인스턴스 분할 및 ADE20K 의미론적 분할과 같은 다운스트림 태스크로 효과적으로 전달되는가?
RQ3아키텍처 선택(Swin-T 대 DeiT-S)과 특정 규칙화 기법(비대칭 드롭 패스, 큐 크기, 온도)이 SSL 성능에 미치는 영향은 무엇인가?
RQ4트랜스포머 백본을 이용한 경량의 SSL 기법들이 다운스트림 태스크에서 감독학습 사전 학습과의 차이를 좁힐 수 있는가?

주요 결과

Method	Arch.	Epochs	Params (M)	FLOPs (G)	img/s	Top-1 acc (%)
Sup.	DeiT-S	300	22	4.6	940.4	79.8
Sup.	Swin-T	300	29	4.5	755.2	81.3
MoCo v3	DeiT-S	300	22	4.6	940.4	72.5
DINO	DeiT-S	300	22	4.6	940.4	72.5
DINO †	DeiT-S	300	22	4.6	940.4	75.9
MoBY	DeiT-S	300	22	4.6	940.4	72.8
MoBY	Swin-T	100	29	4.5	755.2	70.9
MoBY	Swin-T	300	29	4.5	755.2	75.0

MoBY는 DeiT-S로 300에폭에서 72.8%의 Top-1 정확도, Swin-T로 300에폭에서 75.0%의 Top-1 정확도를 달성한다.
동일한 300에폭 체제에서 Swin-T가 DeiT-S보다 선형 평가에서 2.2포인트 더 높은 성능을 보인다.
Swin-T를 사용한 MoBY는 COCO 객체 검출/인스턴스 분할 및 ADE20K 의미론적 분할에서 감독 학습 사전 훈련에 비견할 만한 경쟁력 있는 다운스트림 성능을 보여주며, 일부 지표는 동등하거나 약간의 차이를 나타낸다.
MoCo v3/DINO에서 영감을 받은 기법(예: MLP 앞의 BN)을 적용하면 이득이 생길 수 있으며(예: 100에폭에서 Top-1 1.1% 증가), 추가 개선의 가능성을 시사한다.
MoBY의 선형 평가 및 전달 결과는 ResNet 기반 SSL 방법과 비교할 때 트랜스포머 아키텍처에서 SSL을 개선할 여지가 상당히 크다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.