Skip to main content
QUICK REVIEW

[논문 리뷰] Semi-supervised Vision Transformers at Scale

Zhaowei Cai, Avinash Ravichandran|arXiv (Cornell University)|2022. 08. 11.
Advanced Neural Network Applications인용 수 21
한 줄 요약

Semi-ViT는 EMA-Teacher 기반 SSL 파이프라인과 시각 변환기에 대한 확률적 의사 혼합을 도입하여, 아주 적은 라벨로 ImageNet에서 최첨단 SSL 성능을 달성하고 모델 크기에 걸쳐 확장 가능한 성능을 보인다.

ABSTRACT

We study semi-supervised learning (SSL) for vision transformers (ViT), an under-explored topic despite the wide adoption of the ViT architectures to different tasks. To tackle this problem, we propose a new SSL pipeline, consisting of first un/self-supervised pre-training, followed by supervised fine-tuning, and finally semi-supervised fine-tuning. At the semi-supervised fine-tuning stage, we adopt an exponential moving average (EMA)-Teacher framework instead of the popular FixMatch, since the former is more stable and delivers higher accuracy for semi-supervised vision transformers. In addition, we propose a probabilistic pseudo mixup mechanism to interpolate unlabeled samples and their pseudo labels for improved regularization, which is important for training ViTs with weak inductive bias. Our proposed method, dubbed Semi-ViT, achieves comparable or better performance than the CNN counterparts in the semi-supervised classification setting. Semi-ViT also enjoys the scalability benefits of ViTs that can be readily scaled up to large-size models with increasing accuracies. For example, Semi-ViT-Huge achieves an impressive 80% top-1 accuracy on ImageNet using only 1% labels, which is comparable with Inception-v4 using 100% ImageNet labels.

연구 동기 및 목표

  • 다양한 규모에서 Vision Transformer(ViT)의 준지도 학습 효과를 입증한다.
  • 자기-자기지도 사전학습과 감독 미세조정, 그리고 준지도 미세조정을 포함하는 안정적인 SSL 파이프라인을 제안한다.
  • ViT에서 FixMatch의 불안정성을 EMA-Teacher와 신뢰도 기반 필터링으로 해결한다.
  • 무라벨 데이터 정규화와 노이즈 의사 라벨의 활용을 개선하기 위해 확률적 의사 혼합을 도입한다.
  • Semi-ViT가 SSL에서 ViT의 확장성을 보여주고 데이터셋 전반에서 라벨 효율 향상을 정량화한다.

제안 방법

  • SSL 파이프라인 채택: 모든 데이터에 대한 선택적 자기-자기지도 사전학습을 거친 뒤, 라벨링된 데이터에서 감독 미세조정을 수행하고, 마지막으로 모든 데이터에서 준지도 미세조정을 수행한다.
  • SSL에서 ViT를 미세조정할 때 훈련의 안정화를 위해 FixMatch를 EMA-Teacher로 대체한다(교사는 지수이동평균으로 업데이트).
  • 약하게 증강된 무라벨 데이터에 대해 교사의 의사 레이블을 사용하고, 신뢰도가 임계값을 넘으면 강하게 증강된 학생 샘플을 감독한다.
  • 샘플 신뢰도로 결정된 mixup 비율로 무라벨 샘플과 의사 라벨의 가중 보간을 가능하게 하는 확률적 의사 혼합을 도입한다.
  • 라벨링된 크로스엔트로피와 무라벨 손실을 신뢰도 게이트와 함께 결합한 마스킹 손실을 적용하여 노이즈 의사 라벨을 완화한다.
  • ViT-Small에서 ViT-Huge까지의 확장성을 평가하고 CNN SSL 기준선 및 완전 감독 상한과 비교하여 시연한다.

실험 결과

연구 질문

  • RQ1정교하게 설계된 SSL 파이프라인으로 학습할 때 순수한 Vision Transformer가 CNN에 비해 경쟁력 있는 SSL 성능을 달성할 수 있는가?
  • RQ2FixMatch에 비해 ViT 기반 SSL에서 EMA-Teacher가 안정성과 정확도를 향상시키는가?
  • RQ3다양한 라벨 체계에서 ViT SSL의 정규화 및 성능에 확률적 의사 혼합이 어떻게 영향을 미치는가?
  • RQ4Semi-ViT가 모델 크기에 따라 얼마나 확장 가능하며 SSL 성능을 유지하거나 향상시킬 수 있는가?
  • RQ5Semi-ViT를 사용할 때 ImageNet 및 다른 데이터셋에서의 라벨 효율 향상은 어느 정도인가?

주요 결과

  • Semi-ViT는 ViT 규모에 걸쳐 CNN 상대와 경쟁력 있거나 우수한 SSL 성능을 달성한다.
  • EMA-Teacher가 FixMatch보다 ViT SSL에서 우수하여 안정적인 학습과 더 높은 정확도를 제공한다.
  • 확률적 의사 혼합은 표준 의사 혼합 및 의사 혼합+에 비해 일관된 이득을 제공하며, 특히 대규모 사전학습 없이도 그렇다.
  • 자기지도 사전학습(예: MAE)이 SSL 결과를 크게 향상시켜 1% 라벨에서도 강력한 성능을 가능하게 한다.
  • Semi-ViT-Huge는 ImageNet에서 1% 라벨로 80.0% top-1, 10% 라벨로 84.3%에 도달하며, 상당히 적은 라벨링으로 완전 지도 상한에 근접한다.
  • Semi-ViT는 다른 데이터셋(Food-101, iNaturalist, GoogleLandmark)으로의 강한 전이 성능을 보여주며, 1% 라벨에서 13-21포인트, 10% 라벨에서 7-10포인트의 개선을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.