[論文レビュー] Differentiable Augmentation for Data-Efficient GAN Training
DiffAugment は、GAN の学習時に実データと生成データの両方に微分可能なデータ拡張を適用し、データ効率と収束を改善します。アーキテクチャとデータセットを問わず強力な結果を達成します。
The performance of generative adversarial networks (GANs) heavily deteriorates given a limited amount of training data. This is mainly because the discriminator is memorizing the exact training set. To combat it, we propose Differentiable Augmentation (DiffAugment), a simple method that improves the data efficiency of GANs by imposing various types of differentiable augmentations on both real and fake samples. Previous attempts to directly augment the training data manipulate the distribution of real images, yielding little benefit; DiffAugment enables us to adopt the differentiable augmentation for the generated samples, effectively stabilizes training, and leads to better convergence. Experiments demonstrate consistent gains of our method over a variety of GAN architectures and loss functions for both unconditional and class-conditional generation. With DiffAugment, we achieve a state-of-the-art FID of 6.80 with an IS of 100.8 on ImageNet 128x128 and 2-4x reductions of FID given 1,000 images on FFHQ and LSUN. Furthermore, with only 20% training data, we can match the top performance on CIFAR-10 and CIFAR-100. Finally, our method can generate high-fidelity images using only 100 images without pre-training, while being on par with existing transfer learning algorithms. Code is available at https://github.com/mit-han-lab/data-efficient-gans.
研究の動機と目的
- 訓練データが不足している場合のGANデータ効率を改善する動機。
- ターゲットデータ分布を歪めることなく、識別器の過学習を防ぐ。
- 拡張を介して勾配が生成器へ流れ込むようにして訓練を安定させる。
提案手法
- DとGの更新時に、同じ微分可能な拡張Tを実データと偽データの両方に適用する。
- 単純な拡張(Translation、Cutout、Color)を用い、それらの組み合わせを研究する。
- Tが微分可能であることを保証し、勾配がGへ逆伝播できるようにする(Figure 4)。
- 実データのみ、または識別器入力のみを拡張することは分布シフトや不均衡な訓練ダイナミクスのため失敗することを示す。
- BigGANとStyleGAN2を用いて、ImageNet、CIFAR、FFHQ、LSUN-Cat、および低ショット設定でDiffAugmentを評価する。
実験結果
リサーチクエスチョン
- RQ1実データと生成データの両方に微分可能な拡張を適用することで、限られたデータ下でGANの訓練を安定化させるか?
- RQ2どの拡張タイプ(および組み合わせ)がアーキテクチャ間で最もデータ効率を改善するか?
- RQ3さまざまなデータセットとデータ状況において、DiffAugmentは無条件( unconditional)および条件付き( conditional)GANの性能にどう影響するか?
主な発見
| シナリオ | IS | FID |
|---|---|---|
| ImageNet 128×128 (BigGAN + DiffAugment, 100% データ) | 100.8 | 6.80 |
- DiffAugment を用いた BigGAN は、ImageNet 128×128 でトランケーションなしで IS 100.8、FID 6.80 を達成。
- DiffAugment は FFHQ および LSUN で訓練画像 1k の場合にFIDを2〜4×低減。
- CIFAR-10/CIFAR-100 データの 20% で、DiffAugment はトップパフォーマンスに匹敵し、事前訓練なし(100枚の画像)で強力なローショット結果を達成。
- DiffAugment は 100%、50%、25% データ設定のいずれでも StyleGAN2 および BigGAN のベースラインを一貫して改善。
- より強力な拡張方針は識別器の過学習を抑え、収束を改善する(Figure 6)。
- DiffAugment は固定拡張方針でも有効で、同時期の適応拡張法(ADA)と比較可能。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。