Skip to main content
QUICK REVIEW

[論文レビュー] Semi-Supervised Masked Autoencoders: Unlocking Vision Transformer Potential with Limited Data

Atik Faysal, Mohammad Rostami|arXiv (Cornell University)|Jan 27, 2026
Advanced Neural Network Applications被引用数 0
ひとこと要約

SSMAEはマスクド自己符号化と検証駆動のダイナミック擬似ラベル付けを組み合わせ、限定されたラベルデータでVision Transformerを効果的に学習させ、CIFAR-10/100で教師ありViTとファインチューニングされたMAEを上回る。特に低ラベル regimeで優位。

ABSTRACT

We address the challenge of training Vision Transformers (ViTs) when labeled data is scarce but unlabeled data is abundant. We propose Semi-Supervised Masked Autoencoder (SSMAE), a framework that jointly optimizes masked image reconstruction and classification using both unlabeled and labeled samples with dynamically selected pseudo-labels. SSMAE introduces a validation-driven gating mechanism that activates pseudo-labeling only after the model achieves reliable, high-confidence predictions that are consistent across both weakly and strongly augmented views of the same image, reducing confirmation bias. On CIFAR-10 and CIFAR-100, SSMAE consistently outperforms supervised ViT and fine-tuned MAE, with the largest gains in low-label regimes (+9.24% over ViT on CIFAR-10 with 10% labels). Our results demonstrate that when pseudo-labels are introduced is as important as how they are generated for data-efficient transformer training. Codes are available at https://github.com/atik666/ssmae.

研究の動機と目的

  • ラベル付きデータが乏しい間に、ラベルなしデータが豊富であるという前提のもと、ViTの訓練を動機づけ対処する。
  • マスク付き画像再構成と教師あり学習を統合する半教師ありフレームワークを提案する。
  • 偽陽性バイアスを緩和するために検証駆動のゲーティング機構を導入し、擬似ラベル生成を制御する。
  • SSMAEがCIFAR-10およびCIFAR-100でデータ効率の高いViT訓練と頑健な性能をもたらすことを示す。

提案手法

  • MAE風のマスキングとViTのエンコーダ-デコーダを用いて全データから表現を学習する。
  • 全データに対する再構成損失と、ラベル付きデータに対する教師あり分類損失の二重目的で訓練する。
  • 高い信頼度と弱・強データ拡張間の一貫性を要件とする信頼度ベースの擬似ラベル付けスキームを導入する。
  • 検証デセットでの信頼性が事前定義された閾値を満たした場合にのみ擬似ラベル付けを有効化するダイナミックゲーティング機構を採用する。
  • 再構成損失と分類損失を組み合わせ、擬似ラベル重みを制御可能な総損失を最適化する。
  • 事前学習中はマスキングを75%とし、ウォームアップ後に擬似ラベル付けを有効化し、検証信頼度を継続的に監視する。
Figure 1 : Overview of the SSMAE framework. A shared encoder is trained on two tasks: masked image reconstruction for all data, and classification for labeled data. For unlabeled data, our dynamic gate generates high-confidence pseudo-labels, which are then included in supervised classification.
Figure 1 : Overview of the SSMAE framework. A shared encoder is trained on two tasks: masked image reconstruction for all data, and classification for labeled data. For unlabeled data, our dynamic gate generates high-confidence pseudo-labels, which are then included in supervised classification.

実験結果

リサーチクエスチョン

  • RQ1ラベル付きデータが乏しい場合でも、豊富な未ラベルデータを活用してViTの性能を改善できるか。
  • RQ2半教師ありViT訓練において、偽ラベルをどのように生成し、ゲートして確認バイアスを回避すべきか。
  • RQ3マスク再構成と限られた監視付き学習を組み合わせると、下流の分類へ転用可能な堅牢な表現が得られるか。
  • RQ4マスキング比率とゲーティング閾値が偽ラベル品質と全体精度に与える影響はどうなるか。

主な発見

ModelStage10% labeled20% labeled30% labeled40% labeled
SSMAEPretrain19.6528.5733.1835.96
SSMAEFine-tune22.6532.4135.3141.27
MAEFine-tune21.7230.2034.8840.08
ViTSupervised20.8628.2834.0439.10
  • SSMAEはCIFAR-10およびCIFAR-100のラベル regime 全体で、教師ありViTおよびMAEファインチューニングを一貫して上回る。
  • CIFAR-100でラベル付きデータが10%のとき、SSMAEは22.65%の精度に達し、MAEの21.72%、教師ありViTの20.86%を上回る。
  • CIFAR-10でラベル付きデータが10%のとき、SSMAEは56.80%の精度を達成し、ViTを9.24ポイント、MAEを1.96ポイント上回る。
  • アブレーションにより、再構成と一貫性正則化、および動的ゲーティングがそれぞれ性能向上に大きく寄与することが示された。
  • マスキング比率の分析は、75%のマスキングが最高性能をもたらし、90%のマスキングはやや劣ることを示す。
(a) CIFAR-10 reconstruction results
(a) CIFAR-10 reconstruction results

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。