[論文レビュー] Diffusion Models and Semi-Supervised Learners Benefit Mutually with Few Labels
要約: 本論文は Dual Pseudo Training (DPT) を提案する。3段階の戦略で、半教師あり分類器が疑似ラベルを生成して条件拡散モデルを訓練し、それが分類器を増強する疑似画像を提供することで、非常に少ないラベル数で半教師あり生成と分類の双方で最先端の結果を達成する。
In an effort to further advance semi-supervised generative and classification tasks, we propose a simple yet effective training strategy called dual pseudo training (DPT), built upon strong semi-supervised learners and diffusion models. DPT operates in three stages: training a classifier on partially labeled data to predict pseudo-labels; training a conditional generative model using these pseudo-labels to generate pseudo images; and retraining the classifier with a mix of real and pseudo images. Empirically, DPT consistently achieves SOTA performance of semi-supervised generation and classification across various settings. In particular, with one or two labels per class, DPT achieves a Fréchet Inception Distance (FID) score of 3.08 or 2.52 on ImageNet 256x256. Besides, DPT outperforms competitive semi-supervised baselines substantially on ImageNet classification tasks, achieving top-1 accuracies of 59.0 (+2.8), 69.5 (+3.0), and 74.4 (+2.0) with one, two, or five labels per class, respectively. Notably, our results demonstrate that diffusion can generate realistic images with only a few labels (e.g., <0.1%) and generative augmentation remains viable for semi-supervised classification. Our code is available at https://github.com/ML-GSAI/DPT.
研究の動機と目的
- Motivate: ラベル付きデータが乏しい場合の半教師あり生成と分類の改善を目指す。
- Propose: 半教師あり分類器と条件付き拡散モデルを組み合わせた3段階の訓練パイプライン(DPT)を提案。
- Demonstrate: DPT が ultra-low labeling の下で生成のFID/ISと分類の top-1 精度で最先端を達成する。
- Showcase: 拡散が <0.1% のラベルでも現実的な画像を生成できること、そして生成拡張が分類器に有益であることを示す。
提案手法
- Stage 1: ラベル付きデータと未ラベルデータの上で半教師あり分類器を訓練し、全データに対して疑似ラベルを予測する。
- Stage 2: 実データ上で疑似ラベルを用いた条件付き拡散モデルを訓練し、分類器生成ラベルを用いて各クラスの疑似画像を生成する。
- Stage 3: 実データを拡張した疑似画像で分類器を訓練し、拡散モデルでラベル付けされた疑似画像を用いてループを実質的に閉じる。
- Diffusion における Classifier-Free Guidance (CFG) を調整されたガイダンス強度で使用し、意味論を制御する。
- U-ViT ベースの拡散バックボーンと半教師あり学習者(MSN または Semi-ViT)を分類器として採用。
- 評価は FID, FID_CLIP, sFID, IS, Precision/Recall, そして ImageNet/CIFAR-10 のベンチマーク(解像度別)を用いる。
実験結果
リサーチクエスチョン
- RQ1拡散モデルは、極めて少ないラベル(例: <0.1%)で高忠実度かつ意味論的に制御可能な画像を生成できるか。
- RQ2拡散モデルによる生成拡張は、ラベルが希少な場合の半教師あり分類性能を改善できるか。
- RQ3拡散モデルと強力な半教師あり学習者は、相互に強化される訓練ループで互いに利益を得られるか。
- RQ4提案された3段階 DPT パイプラインは、解像度やラベルレジーム(各クラス1、2、5ラベル、1% ラベル)を超えてロバストか。
主な発見
| Method (Model) | Label fraction | FID-50K | FID_CLIP | sFID | IS | Precision | Recall | # Params |
|---|---|---|---|---|---|---|---|---|
| DPT (ours, with MSN) | <0.1% (1) | 3.08 | 1.84 | 5.56 | 201.68 | 0.80 | 0.58 | 585M |
| DPT (ours, with MSN) | <0.2% (2) | 2.52 | 1.81 | 5.49 | 230.34 | 0.81 | 0.57 | 585M |
| DPT (ours, with MSN) | <0.4% (5) | 2.50 | 1.82 | 5.54 | 243.10 | 0.83 | 0.55 | 585M |
| DPT (ours, with U-ViT-Huge) | <0.1% (1) | 3.08 | 1.84 | 5.56 | 201.68 | 0.80 | 0.58 | 585M |
- DPT は CIFAR-10 および ImageNet で、解像度を問わず半教師あり生成の最先端を達成している(128x128, 256x256, 512x512)。
- ImageNet-256x256 で<0.1% のラベルを用いた場合、DPT は FID 3.08 を達成し、いくつかの監視付き拡散モデルを上回る。
- ImageNet-256x256 で各クラスあたり 1-5 ラベルのとき、DPT は top-1 精度 59.0, 69.5, 74.4 をそれぞれ達成し、強力なベースラインを改良。
- 1% ラベルで 512x512 生成の FID が 2.42 に達し、1% ラベルの性能は複数の指標で完全監視付きベースラインに接近。
- DPT は拡散ベースの生成拡張が半教師あり分類にも有効であることを示し、少数ラベルで ImageNet における SOTA を達成(例: 59.0/69.5/74.4)。
- 定性的結果は、非常に少ないラベルでも現実的で多様かつ意味論的に正しい画像を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。