[論文レビュー] Synthetic Data from Diffusion Models Improves ImageNet Classification
ImageNet で大規模なテキストツーイメージ拡散モデル(Imagen)をファインチューニングすると、ImageNet の生成において最先端の FID と IS を達成し、合成データが実データを補強すると ResNet および ViT アーキテクチャ全体で ImageNet の分類精度が大幅に向上します。
Deep generative models are becoming increasingly powerful, now generating diverse high fidelity photo-realistic samples given text prompts. Have they reached the point where models of natural images can be used for generative data augmentation, helping to improve challenging discriminative tasks? We show that large-scale text-to image diffusion models can be fine-tuned to produce class conditional models with SOTA FID (1.76 at 256x256 resolution) and Inception Score (239 at 256x256). The model also yields a new SOTA in Classification Accuracy Scores (64.96 for 256x256 generative samples, improving to 69.24 for 1024x1024 samples). Augmenting the ImageNet training set with samples from the resulting models yields significant improvements in ImageNet classification accuracy over strong ResNet and Vision Transformer baselines.
研究の動機と目的
- 大規模なテキストツーイメージ拡散モデルをファインチューニングして、クラス条件付きの ImageNet データを生成できるかを調査する。
- 合成データを用いた downstream ImageNet 分類の向上を、アーキテクチャ間で評価する。
- 生成性能と識別性能の両方を最大化するサンプリングとファインチューニング戦略を特定する。
提案手法
- ImageNet の学習集合で大規模 Imagen テキストツーイメージ拡散モデルをファインチューニングして、クラス条件付きジェネレーターを作成する。
- FID、IS、CAS を最適化するためにサンプリングパラメータ(ガイダンス重み、対数分散、ノイズ増強、デノイズステップ)を調整する。
- 合成データを用いて分類器を訓練し、実データの ImageNet 検証データで評価することで、FID/IS および CAS を評価する。
- 解像度(64x64、256x256、1024x1024)およびモデルアーキテクチャ(ResNet と ViT)間で性能を比較する。
- ImageNet クラスでバランスされた大規模合成データセット(1.2M 〜 12M 枚 image)を構築して拡張実験を行う。
- 生成データのスケーリングと、さまざまな訓練データセットサイズでの下流の精度への影響を評価する。
実験結果
リサーチクエスチョン
- RQ1事前学習済みの拡散モデルをファインチューニングして、複数の解像度で高品質なクラス条件付きの ImageNet サンプルを生成できるか。
- RQ2このようなファインチューニングモデルで生成された画像は、データ拡張として使用した場合、下流の ImageNet 分類を改善しますか。
- RQ3サンプリングパラメータと解像度は、サンプル品質(FID/IS)と下流の CAS パフォーマンスのトレードオフにどう影響しますか。
主な発見
| Model | FID train | FID validation | IS |
|---|---|---|---|
| BigGAN-deep (Dhariwal & Nichol, 2021) | 4.06 | - | - |
| Improved DDPM (Nichol & Dhariwal, 2021) | 2.92 | - | - |
| ADM (Dhariwal & Nichol, 2021) | 2.07 | - | - |
| CDM (Ho et al, 2022) | 1.48 | 2.48 | 67.95 ± 1.97 |
| RIN (Jabri et al., 2022) | 1.23 | - | 66.5 |
| RIN + noise schedule (Chen, 2023) | 2.04 | - | 55.8 |
| Ours (Fine-tuned Imagen) | 1.76 | 2.81 | 239.18 ± 1.14 |
- ファインチューニングした Imagen は、256x256 で最先端の FID (1.76) および IS (239) を達成し、256x256 で CAS が 64.96、1024x1024 では 69.24 へと上昇する新しい CAS を達成。
- ファインチューニング拡散モデルによる合成データは、現実データに追加すると ResNet および ViT ベースの分類器で ImageNet 精度を大幅に向上させる。
- CAS の改善は特に 1024x1024 で顕著で、実データで訓練されたモデルとのギャップを縮小する。
- より大規模な合成データセットは 64x64 で性能を向上させ続けることがあるが、約 1M 枚を超える高解像度での利得は減衰または偏りを示し、最適な利得は解像度とサンプリング戦略に依存する。
- 実データと合成データを組み合わせると、単独よりも大きな利得が得られ、さまざまなアーキテクチャで substantial gains が得られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。