[論文レビュー] Semi-supervised Vision Transformers at Scale
Semi-ViT は EMA-Teacher ベースの SSL パイプラインと視覚トランスフォーマー向けの確率的擬似ミックスアップを導入し、少数ラベルで ImageNet における最先端の SSL 結果を達成し、モデルサイズ間でスケーラブルな性能を示す。
We study semi-supervised learning (SSL) for vision transformers (ViT), an under-explored topic despite the wide adoption of the ViT architectures to different tasks. To tackle this problem, we propose a new SSL pipeline, consisting of first un/self-supervised pre-training, followed by supervised fine-tuning, and finally semi-supervised fine-tuning. At the semi-supervised fine-tuning stage, we adopt an exponential moving average (EMA)-Teacher framework instead of the popular FixMatch, since the former is more stable and delivers higher accuracy for semi-supervised vision transformers. In addition, we propose a probabilistic pseudo mixup mechanism to interpolate unlabeled samples and their pseudo labels for improved regularization, which is important for training ViTs with weak inductive bias. Our proposed method, dubbed Semi-ViT, achieves comparable or better performance than the CNN counterparts in the semi-supervised classification setting. Semi-ViT also enjoys the scalability benefits of ViTs that can be readily scaled up to large-size models with increasing accuracies. For example, Semi-ViT-Huge achieves an impressive 80% top-1 accuracy on ImageNet using only 1% labels, which is comparable with Inception-v4 using 100% ImageNet labels.
研究の動機と目的
- Vision Transformers (ViT) のスケールを超えて半教師あり学習の有効性を示す。
- 自己/自己教師あり事前学習、教師ありファインチューニング、半教師ありファインチューニングから成る安定した SSL パイプラインを提案する。
- EMA-Teacher と信頼度ベースのフィルタリングを採用して ViT における FixMatch の不安定性に対処する。
- ノイズの多い擬似ラベルの利用を改善し unlabeled データを正則化するための確率的擬似ミックスアップを導入する。
- SSL における ViT のスケーラビリティの利点を示し、データセット全体でラベル効率の利得を定量化する。
提案手法
- SSL パイプラインを採用:全データでの任意の自己/自己教師あり事前学習、ラベル付きデータでの教師ありファインチューニング、その後すべてのデータでの半教師ありファインチューニング。
- SSL トレーニングを安定させるため FixMatch を EMA-Teacher に置換(教師は指数移動平均で更新)。
- 弱く拡張された未ラベルデータに対して教師の擬似ラベルを使用し、信頼度が閾値を超えた場合に強く拡張された生徒サンプルを監督する。
- サンプルの信頼度に基づいてミックスアップ比が決まる確率的擬似ミックスアップを導入し、未ラベルサンプルと擬似ラベルの加重補間を可能にする。
- ラベル付きクロスエントロピーと未ラベル損失を信頼度ゲートで組み合わせたマスク付き損失を適用し、ノイズの多い擬似ラベルを緩和する。
- ViT-Small から ViT-Huge を評価し、CNN SSL ベースラインおよび完全監視の上限と比較してスケーラビリティを示す。
実験結果
リサーチクエスチョン
- RQ1十分に設計された SSL パイプラインで訓練された場合、純粋な Vision Transformers は CNN と比較して競争力のある SSL 性能を達成できるか?
- RQ2EMA-Teacher は FixMatch と比較して ViT SSL の安定性と精度を向上させるか?
- RQ3ラベルの制御下での変化する regime で、確率的擬似ミックスアップが ViT SSL の正則化と性能にどう影響するか?
- RQ4Semi-ViT はモデルサイズを拡大しても SSL 性能を維持または向上させつつどの程度スケールできるか?
- RQ5Semi-ViT を使用した場合の ImageNet および他データセットでのラベル効率の利得はどの程度か?
主な発見
| Model | Param | Method | 1% | 10% | 100% |
|---|---|---|---|---|---|
| ViT-Base | 86M | finetune | 57.4 | 73.7 | 83.7 |
| Semi-ViT | 71.0 | 79.7 | - | - | - |
| ViT-Large | 307M | finetune | 67.1 | 79.2 | 86.0 |
| Semi-ViT | 77.3 | 83.3 | - | - | - |
| ViT-Huge | 632M | finetune | 71.5 | 81.4 | 86.9 |
| Semi-ViT | 80.0 | 84.3 | - | - | - |
- Semi-ViT は ViT のスケール全体で CNN 対応物と同等あるいは優れた SSL 性能を達成する。
- EMA-Teacher は FixMatch を上回り、安定したトレーニングとより高い精度を提供。
- 確率的擬似ミックスアップは、標準的な擬似ミックスアップおよび擬似ミックスアップ+ を上回る一貫した利益をもたらし、特に重い事前学習が不要な場合に顕著。
- 自己教師付き事前学習(例:MAE)は SSL 結果を大幅に高め、1% のラベルでも強力な性能を可能にする。
- Semi-ViT-Huge は ImageNet で 1% ラベルで 80.0% top-1、10% ラベルで 84.3% に到達し、ラベリングははるかに少なくても完全監視の上限に近づく。
- Semi-ViT は他データセット(Food-101、iNaturalist、GoogleLandmark)へ強い転移を示し、1% ラベルで 13-21 ポイント、10% ラベルで 7-10 ポイントの改善。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。