[论文解读] Large Scale GAN Training for High Fidelity Natural Image Synthesis
本文在大规模训练 BigGAN 以达到 ImageNet 上的最先进保真度和多样性,引入正交正则化和截断技巧,并分析大规模下的不稳定性。
Despite recent progress in generative image modeling, successfully generating high-resolution, diverse samples from complex datasets such as ImageNet remains an elusive goal. To this end, we train Generative Adversarial Networks at the largest scale yet attempted, and study the instabilities specific to such scale. We find that applying orthogonal regularization to the generator renders it amenable to a simple "truncation trick," allowing fine control over the trade-off between sample fidelity and variety by reducing the variance of the Generator's input. Our modifications lead to models which set the new state of the art in class-conditional image synthesis. When trained on ImageNet at 128x128 resolution, our models (BigGANs) achieve an Inception Score (IS) of 166.5 and Frechet Inception Distance (FID) of 7.4, improving over the previous best IS of 52.52 and FID of 18.6.
研究动机与目标
- 展示通过增加参数和批量大小来提升高保真、多样性图像合成的潜在收益。
- 引入架构和正则化变更以改善 GAN 的可扩展性和条件性。
- 展示截断如何在保真度与多样性之间取得权衡,并提供事后控制机制。
- 分析大规模 GAN 的不稳定性并评估在不牺牲过多性能的前提下稳定训练的方法。
提出的方法
- 通过增加参数和批量大小来扩展 GAN,相较于先前工作。
- 使用共享类嵌入映射到 BatchNorm 的增益/偏置。
- 从潜在向量 z 引入跳跃连接到多个生成器层(Skip-z)。
- 应用正交正则化以促使权重矩阵良好定态、正交化风格。
- 引入并分析截断技巧通过在阈值内重新采样潜在向量 z 来在样本保真度与多样性之间权衡。
- 将谱归一化和梯度惩罚作为稳定化工具并评估它们的影响。
实验结果
研究问题
- RQ1增加模型大小和批量大小如何影响 ImageNet 图像的保真度和多样性?
- RQ2哪些架构和正则化变更能够在大规模下实现稳定训练并提升性能?
- RQ3截断技巧是否能够在不损害训练稳定性的前提下提供对保真度-多样性权衡的实际控制?
- RQ4大规模 GAN 的主要不稳定来源是什么,如何在不显著损失性能的情况下缓解?
主要发现
| 模型/设置 | 分辨率 | 参数量 (M) | 共享 | Skip-z | 正交 | 迭代 × 10^3 | FID | IS |
|---|---|---|---|---|---|---|---|---|
| SA-GAN Baseline | 128 | 1000 | ✗ | ✗ | ✗ | 1,000 | 18.65 | 52.52 |
| BigGAN | 128 | 158.3 | ✗ | ✗ | ✗ | 165 | 8.51±0.32 | 98.76±2.84 |
| BigGAN | 128 | 158.3 | ✓ | ✗ | ✗ | 185±11 | 9.18±0.13 | 94.94±1.32 |
| BigGAN | 128 | 158.3 | ✓ | ✓ | ✗ | 152±7 | 8.73±0.45 | 98.76±2.84 |
| BigGAN | 128 | 158.3 | ✓ | ✓ | ✓ | 165±13 | 8.51±0.32 | 99.31±2.10 |
| SN-GAN | 128 | 71.3 | ✓ | ✓ | ✓ | 371±7 | 10.48±0.10 | 86.90±0.61 |
- BigGAN 在多个分辨率上达到 ImageNet 的最先进 IS 和 FID(例如 128×128: IS 166.5, FID 7.4)。
- 在 256×256 和 512×512 下,BigGAN 的 IS 分别为 232.5 与 241.5,FID 为 8.1 与 11.5。
- 截断在提高样本质量(IS/FID)的同时会降低样本多样性;正交正则化(从 16% 提高到 60% 的运行)提高了对截断的可接受度。
- 共享嵌入和 Skip-z 连接对训练效率和性能有显著提升(例如提升多样性和保真度)。
- 大规模训练揭示与生成器条件和判别器动态相关的不稳定性;对判别器施加激进梯度惩罚可以改善稳定性,但可能损害性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。