[论文解读] Improved Consistency Regularization for GANs
本文提出用于生成对抗网络(GANs)的改进一致性正则化(ICR),引入平衡一致性正则化(bCR)以同时正则化真实图像与生成图像,并提出潜在空间一致性正则化(zCR)以增强生成器对潜在空间扰动的敏感性以及判别器对潜在空间扰动的不敏感性。ICR 有效减少了伪影,并在多项指标上达到最先进(SoTA)的 FID 分数,包括在 BigGAN 上的 ImageNet-2012 数据集上取得 5.38 的 FID 分数,以及在 CIFAR-10 条件生成任务中取得 9.21 的 FID 分数。
Recent work has increased the performance of Generative Adversarial Networks (GANs) by enforcing a consistency cost on the discriminator. We improve on this technique in several ways. We first show that consistency regularization can introduce artifacts into the GAN samples and explain how to fix this issue. We then propose several modifications to the consistency regularization procedure designed to improve its performance. We carry out extensive experiments quantifying the benefit of our improvements. For unconditional image synthesis on CIFAR-10 and CelebA, our modifications yield the best known FID scores on various GAN architectures. For conditional image synthesis on CIFAR-10, we improve the state-of-the-art FID score from 11.48 to 9.21. Finally, on ImageNet-2012, we apply our technique to the original BigGAN model and improve the FID from 6.66 to 5.38, which is the best score at that model size.
研究动机与目标
- 为解决 CR-GAN 中仅对真实图像应用数据增强所引入的伪影问题。
- 通过将一致性正则化扩展至生成样本,而非仅限于真实图像,以改善训练过程的平衡性。
- 通过在潜在空间中对扰动进行正则化,提升模型的鲁棒性与多样性。
- 在无条件与条件图像生成基准上实现最先进(SoTA)的 FID 分数。
- 开发一种简单、高效且对超参数不敏感的 GAN 训练方法。
提出的方法
- 提出平衡一致性正则化(bCR),通过在生成图像与其增强版本之间应用一致性损失,以平衡判别器的训练过程。
- 提出潜在一致性正则化(zCR),通过在潜在向量中添加小噪声扰动,促使生成器在扰动下产生多样化输出。
- 对于 zCR,生成器损失中包含一项 $ L_{\text{gen}} = -\|G(z) - G(T(z))\|^2 $,以增强对潜在空间扰动的敏感性。
- 通过 $ L_{\text{dis}} = \|D(G(z)) - D(G(T(z)))\|^2 $ 对判别器进行正则化,以强制其对潜在空间扰动保持不敏感。
- 将 bCR 与 zCR 组合为改进的一致性正则化(ICR),并将其与标准 GAN 目标函数联合使用。
- 在图像上使用标准数据增强(如随机裁剪、翻转),并在潜在向量中添加高斯噪声以实现扰动。
实验结果
研究问题
- RQ1将一致性正则化扩展至生成样本是否能减少 CR-GAN 中因仅对真实图像应用增强而产生的伪影?
- RQ2通过正则化生成器对潜在空间扰动的敏感性,是否能提升样本多样性并减少模式崩溃?
- RQ3通过强制判别器对潜在空间扰动保持不敏感,是否能提升泛化能力与鲁棒性?
- RQ4在所提出的 ICR 框架中,哪些超参数设置(如噪声幅度、权重系数)能取得最佳性能?
- RQ5ICR 是否能在包括 CIFAR-10、CelebA 和 ImageNet-2012 在内的多样化基准上实现最先进(SoTA)的 FID 分数?
主要发现
- ICR 通过在真实图像与生成图像之间平衡一致性正则化,有效减少了生成样本中的伪影。
- 在 CIFAR-10 上,ICR 在多种 GAN 架构的无条件图像生成任务中均取得了目前已知最佳的 FID 分数。
- 在 CIFAR-10 的条件图像生成任务中,ICR 将 FID 分数从 11.48 提升至 9.21,创下新的最先进(SOTA)记录。
- 在原始 BigGAN 模型下于 ImageNet-2012 上,ICR 将 FID 分数从 6.66 降低至 5.38,达到该模型规模下的最佳成绩。
- 该方法计算开销轻量,且对超参数选择相对不敏感,尤其在中等噪声水平($ \sigma_{\text{noise}} = 0.07 $)和 $ \lambda_{\text{gen}} = 0.5 $ 时表现稳定。
- 实验表明,提高判别器系数 $ \lambda_{\text{dis}} $ 可进一步提升性能,表明其在 zCR 中具有关键作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。