[论文解读] Consistency Regularization for Generative Adversarial Networks
CR-GAN 通过对判别器施加一致性正则化,惩罚对语义保持不变增强的敏感性,在 CIFAR-10 和 CelebA 上实现了最先进的 FID,并提升了 CIFAR-10 和 ImageNet-2012 的条件生成。
Generative Adversarial Networks (GANs) are known to be difficult to train, despite considerable research effort. Several regularization techniques for stabilizing training have been proposed, but they introduce non-trivial computational overheads and interact poorly with existing techniques like spectral normalization. In this work, we propose a simple, effective training stabilizer based on the notion of consistency regularization---a popular technique in the semi-supervised learning literature. In particular, we augment data passing into the GAN discriminator and penalize the sensitivity of the discriminator to these augmentations. We conduct a series of experiments to demonstrate that consistency regularization works effectively with spectral normalization and various GAN architectures, loss functions and optimizer settings. Our method achieves the best FID scores for unconditional image generation compared to other regularization methods on CIFAR-10 and CelebA. Moreover, Our consistency regularized GAN (CR-GAN) improves state-of-the-art FID scores for conditional generation from 14.73 to 11.48 on CIFAR-10 and from 8.73 to 6.66 on ImageNet-2012.
研究动机与目标
- 以一个轻量级正则化项稳定 GAN 训练,辅以谱归一化的补充。
- 通过强制判别器输出对语义保持的增强不变来引入一致性正则化(CR)。
- 展示 CR-GAN 与各种 GAN 损失、架构和优化器的兼容性。
- 表明 CR-GAN 在无条件生成方面达到最先进的 FID,并改善条件生成分数。
提出的方法
- 对输入给判别器的真实数据进行语义保持的变换增强。
- 添加惩罚项 L_cr,使原始输入和增强输入的判别器输出之间的 L2 距离最小化(L_cr = ||D(x) - D(T(x))||^2)。
- 在判别器损失中引入系数 lambda 的 L_cr,同时保持生成器损失不变。
- 在带有谱归一化的多种 GAN 变体和损失下应用 CR-GAN,并证明相较于基于梯度的正则器,其计算开销更小。
- 提供消融研究以分析增强类型、正则化系数的敏感性以及架构依赖性。
实验结果
研究问题
- RQ1一致性正则化是否在不同损失和架构下提升 GAN 训练稳定性与样本质量?
- RQ2CR-GAN 如何与谱归一化及其他正则器交互?
- RQ3增强类型与正则化强度对 CR-GAN 性能有何影响?
- RQ4CR-GAN 能否在无条件和条件图像生成中提升最先进的 GAN?
- RQ5与基于梯度的正则器相比,CR-GAN 的计算效率是否更高?
主要发现
- CR-GAN 在测试设置中实现了 CIFAR-10 与 CelebA 的无条件图像生成的最佳 FID 分数。
- 在条件生成方面,CR-GAN 将 CIFAR-10 的 FID 从 14.73 提升至 11.48,将 ImageNet-2012 的 FID 从 8.73 提升至 6.66。
- CR-GAN 在与谱归一化搭配时,对不同架构和损失函数均能持续提升性能。
- CR-GAN 相比基于梯度的正则器大约快 1.7 倍,且仅增加了很小的前向/反向传播开销。
- 将 CR 引入到最先进的 BigGAN⋆ 中时,CIFAR-10 的 FID 从 20.42 提升到 11.48,ImageNet 的 FID 从 7.75 提升到 6.66。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。