QUICK REVIEW

[논문 리뷰] Semi-supervised Vision Transformers at Scale

Zhaowei Cai, Avinash Ravichandran|arXiv (Cornell University)|2022. 08. 11.

Advanced Neural Network Applications인용 수 21

한 줄 요약

Semi-ViT는 EMA-Teacher 기반 SSL 파이프라인과 시각 변환기에 대한 확률적 의사 혼합을 도입하여, 아주 적은 라벨로 ImageNet에서 최첨단 SSL 성능을 달성하고 모델 크기에 걸쳐 확장 가능한 성능을 보인다.

ABSTRACT

We study semi-supervised learning (SSL) for vision transformers (ViT), an under-explored topic despite the wide adoption of the ViT architectures to different tasks. To tackle this problem, we propose a new SSL pipeline, consisting of first un/self-supervised pre-training, followed by supervised fine-tuning, and finally semi-supervised fine-tuning. At the semi-supervised fine-tuning stage, we adopt an exponential moving average (EMA)-Teacher framework instead of the popular FixMatch, since the former is more stable and delivers higher accuracy for semi-supervised vision transformers. In addition, we propose a probabilistic pseudo mixup mechanism to interpolate unlabeled samples and their pseudo labels for improved regularization, which is important for training ViTs with weak inductive bias. Our proposed method, dubbed Semi-ViT, achieves comparable or better performance than the CNN counterparts in the semi-supervised classification setting. Semi-ViT also enjoys the scalability benefits of ViTs that can be readily scaled up to large-size models with increasing accuracies. For example, Semi-ViT-Huge achieves an impressive 80% top-1 accuracy on ImageNet using only 1% labels, which is comparable with Inception-v4 using 100% ImageNet labels.

연구 동기 및 목표

다양한 규모에서 Vision Transformer(ViT)의 준지도 학습 효과를 입증한다.
자기-자기지도 사전학습과 감독 미세조정, 그리고 준지도 미세조정을 포함하는 안정적인 SSL 파이프라인을 제안한다.
ViT에서 FixMatch의 불안정성을 EMA-Teacher와 신뢰도 기반 필터링으로 해결한다.
무라벨 데이터 정규화와 노이즈 의사 라벨의 활용을 개선하기 위해 확률적 의사 혼합을 도입한다.
Semi-ViT가 SSL에서 ViT의 확장성을 보여주고 데이터셋 전반에서 라벨 효율 향상을 정량화한다.

제안 방법

SSL 파이프라인 채택: 모든 데이터에 대한 선택적 자기-자기지도 사전학습을 거친 뒤, 라벨링된 데이터에서 감독 미세조정을 수행하고, 마지막으로 모든 데이터에서 준지도 미세조정을 수행한다.
SSL에서 ViT를 미세조정할 때 훈련의 안정화를 위해 FixMatch를 EMA-Teacher로 대체한다(교사는 지수이동평균으로 업데이트).
약하게 증강된 무라벨 데이터에 대해 교사의 의사 레이블을 사용하고, 신뢰도가 임계값을 넘으면 강하게 증강된 학생 샘플을 감독한다.
샘플 신뢰도로 결정된 mixup 비율로 무라벨 샘플과 의사 라벨의 가중 보간을 가능하게 하는 확률적 의사 혼합을 도입한다.
라벨링된 크로스엔트로피와 무라벨 손실을 신뢰도 게이트와 함께 결합한 마스킹 손실을 적용하여 노이즈 의사 라벨을 완화한다.
ViT-Small에서 ViT-Huge까지의 확장성을 평가하고 CNN SSL 기준선 및 완전 감독 상한과 비교하여 시연한다.

실험 결과

연구 질문

RQ1정교하게 설계된 SSL 파이프라인으로 학습할 때 순수한 Vision Transformer가 CNN에 비해 경쟁력 있는 SSL 성능을 달성할 수 있는가?
RQ2FixMatch에 비해 ViT 기반 SSL에서 EMA-Teacher가 안정성과 정확도를 향상시키는가?
RQ3다양한 라벨 체계에서 ViT SSL의 정규화 및 성능에 확률적 의사 혼합이 어떻게 영향을 미치는가?
RQ4Semi-ViT가 모델 크기에 따라 얼마나 확장 가능하며 SSL 성능을 유지하거나 향상시킬 수 있는가?
RQ5Semi-ViT를 사용할 때 ImageNet 및 다른 데이터셋에서의 라벨 효율 향상은 어느 정도인가?

주요 결과

Semi-ViT는 ViT 규모에 걸쳐 CNN 상대와 경쟁력 있거나 우수한 SSL 성능을 달성한다.
EMA-Teacher가 FixMatch보다 ViT SSL에서 우수하여 안정적인 학습과 더 높은 정확도를 제공한다.
확률적 의사 혼합은 표준 의사 혼합 및 의사 혼합+에 비해 일관된 이득을 제공하며, 특히 대규모 사전학습 없이도 그렇다.
자기지도 사전학습(예: MAE)이 SSL 결과를 크게 향상시켜 1% 라벨에서도 강력한 성능을 가능하게 한다.
Semi-ViT-Huge는 ImageNet에서 1% 라벨로 80.0% top-1, 10% 라벨로 84.3%에 도달하며, 상당히 적은 라벨링으로 완전 지도 상한에 근접한다.
Semi-ViT는 다른 데이터셋(Food-101, iNaturalist, GoogleLandmark)으로의 강한 전이 성능을 보여주며, 1% 라벨에서 13-21포인트, 10% 라벨에서 7-10포인트의 개선을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.