Skip to main content
QUICK REVIEW

[논문 리뷰] Semi-Supervised Masked Autoencoders: Unlocking Vision Transformer Potential with Limited Data

Atik Faysal, Mohammad Rostami|arXiv (Cornell University)|2026. 01. 27.
Advanced Neural Network Applications인용 수 0
한 줄 요약

SSMAE는 마스킹 자동인코딩과 동적, 검증 주도 의사레이블링을 결합하여 제한된 라벨 데이터에서도 Vision Transformers를 효율적으로 학습시키고 CIFAR-10/100에서 감독형 ViT 및 미세조정 MAE보다 우수하며, 특히 라벨이 적은 상황에서 더 두드러진다.

ABSTRACT

We address the challenge of training Vision Transformers (ViTs) when labeled data is scarce but unlabeled data is abundant. We propose Semi-Supervised Masked Autoencoder (SSMAE), a framework that jointly optimizes masked image reconstruction and classification using both unlabeled and labeled samples with dynamically selected pseudo-labels. SSMAE introduces a validation-driven gating mechanism that activates pseudo-labeling only after the model achieves reliable, high-confidence predictions that are consistent across both weakly and strongly augmented views of the same image, reducing confirmation bias. On CIFAR-10 and CIFAR-100, SSMAE consistently outperforms supervised ViT and fine-tuned MAE, with the largest gains in low-label regimes (+9.24% over ViT on CIFAR-10 with 10% labels). Our results demonstrate that when pseudo-labels are introduced is as important as how they are generated for data-efficient transformer training. Codes are available at https://github.com/atik666/ssmae.

연구 동기 및 목표

  • 레이블이 드문 데이터로 ViT를 훈련하는 동기 부여 및 문제 해결.
  • 마스크드 이미지 재구성과 지도 학습을 통합하는 반지도 학습 프레임워크 제안.
  • 의사레이블 생성과 확정 편향 완화를 제어하는 검증 기반 게이팅 메커니즘 도입.
  • SSMAE가 CIFAR-10 및 CIFAR-100에서 데이터 효율적인 ViT 학습과 강건한 성능을 달성함을 입증.

제안 방법

  • MAE 스타일의 마스킹과 ViT 인코더-디코더를 사용해 모든 데이터에서 표현 학습.
  • 두 가지 목표로 학습: 전체 데이터에 대한 마스킹 재구성 손실과 라벨 데이터에 대한 지도 분류 손실.
  • 강한 신뢰도와 약/강한 증강 간의 일관성에 기반한 의사레이블링 스킴 도입으로 의사레이블을 사용하기 전에 고신뢰도가 필요.
  • 모델의 신뢰도가 검증 세트에서 미리 정의된 임계값에 도달한 경우에만 의사레이블링을 활성화하는 동적 게이팅 메커니즘 도입.
  • 재구성 손실과 분류 손실을 결합한 총 손실을 최적화하고 의사레이블 가중치를 제어 가능하게 설정.
  • 사전학습 중 마스킹(75%) 적용 및 워밍업 후 의사레이블링 활성화, 검증 신뢰도 지속 모니터링.
Figure 1 : Overview of the SSMAE framework. A shared encoder is trained on two tasks: masked image reconstruction for all data, and classification for labeled data. For unlabeled data, our dynamic gate generates high-confidence pseudo-labels, which are then included in supervised classification.
Figure 1 : Overview of the SSMAE framework. A shared encoder is trained on two tasks: masked image reconstruction for all data, and classification for labeled data. For unlabeled data, our dynamic gate generates high-confidence pseudo-labels, which are then included in supervised classification.

실험 결과

연구 질문

  • RQ1제약된 라벨 데이터에서도 SSMAE가 ViT 성능을 향상시키면서 풍부한 비라벨 데이터를 활용할 수 있는가?
  • RQ2의사레이블은 세미-지도 ViT 학습에서 확인 편향을 피하기 위해 어떻게 생성되고 게이트되어야 하는가?
  • RQ3마스킹 재구성과 제한된 감독을 결합하면 다운스트림 분류에 전이 가능한 강건한 표현이 얻어지는가?
  • RQ4마스킹 비율과 게이트 임계값이 의사레이블 품질 및 전체 정확도에 어떤 영향을 미치는가?

주요 결과

  • SSMAE는 데이터 라벨 regime 전반에 걸쳐 감독형 ViT 및 MAE 미세조정보다 일관되게 우수한 성능을 보인다.
  • 라벨링 데이터가 10%인 CIFAR-100에서 SSMAE는 22.65% 정확도에 도달하였고 MAE는 21.72%, 감독형 ViT는 20.86%였다.
  • 10% 라벨 CIFAR-10에서 SSMAE는 56.80% 정확도를 달성하여 ViT보다 9.24포인트 앞서고 MAE보다 1.96 포인트 앞섰다.
  • 재구성 및 일관성 규제, 더불어 동적 게이팅이 각각 성능에 크게 기여함.
  • 75% 마스킹이 최고 성능을 보였고 90% 마스킹은 약간 더 나빠졌다.
(a) CIFAR-10 reconstruction results
(a) CIFAR-10 reconstruction results

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.