[论文解读] Stabilizing GAN Training with Multiple Random Projections
本文提出让单一生成器对一组判别器进行训练,每个判别器查看数据的不同随机低维投影,以稳定GAN训练并提升样本质量。实验结果显示生成的图像质量高于传统的单判别器GAN。
Training generative adversarial networks is unstable in high-dimensions as the true data distribution tends to be concentrated in a small fraction of the ambient space. The discriminator is then quickly able to classify nearly all generated samples as fake, leaving the generator without meaningful gradients and causing it to deteriorate after a point in training. In this work, we propose training a single generator simultaneously against an array of discriminators, each of which looks at a different random low-dimensional projection of the data. Individual discriminators, now provided with restricted views of the input, are unable to reject generated samples perfectly and continue to provide meaningful gradients to the generator throughout training. Meanwhile, the generator learns to produce samples consistent with the full data distribution to satisfy all discriminators simultaneously. We demonstrate the practical utility of this approach experimentally, and show that it is able to produce image samples with higher quality than traditional training with a single discriminator.
研究动机与目标
- 通过降低判别器主导性,在高维空间中改善GAN训练的稳定性。
- 保持一致性,使生成器尽管在部分视图下也能学习到完整的数据分布。
- 证明多重随机投影比单一判别器GAN能产生更高质量的生成图像。
- 为将随机投影判别应用于图像数据提供实际实现指南。
提出的方法
- 让生成器 G 对多個判别器 {Dk} 进行训练,每个判别器通过 Wk^T x 对数据进行随机低维投影来工作。
- 使用将投影实现为带有随机高斯滤波器的卷积层来创建类图像的投影输入。
- 判别器最大化它们各自投影特定的损失;生成器最小化所有判别器损失的平均值。
- 形式化地优化 min_G max_{D1,...,DK} sum_k V(Dk,G) 其中 V(Dk,G) = E_x~Px[log Dk(Wk^T x)] + E_z~Pz[log(1 - Dk(Wk^T G(z)))]
- 采用 m < d 的随机投影以引入信息瓶颈,促进对 G 的稳定梯度流。
- 提供理论依据,在足够多的投影下匹配边缘分布在光滑假设下意味着完整的联合分布也被匹配。
实验结果
研究问题
- RQ1对生成器进行多重低维投影训练是否比单一全视图判别器提供更强且更持久的梯度?
- RQ2通过满足多个部分视图判别器,生成器能否学习到完整的数据分布?
- RQ3投影数量 K 如何影响训练稳定性和样本质量?
- RQ4在高维图像生成中,哪些实际实现选择(结构、投影)会影响稳定性和质量?
- RQ5该方法是否可迁移到除人脸之外的数据集(如 Imagenet canine)和更高分辨率?
主要发现
- 多重随机投影在训练过程中梯度保持信息性,从而实现更稳定的生成器训练。
- 使用大量判别器进行训练的生成器产生的样本质量高于传统的 DC-GAN,更丰富的细节和更少的畸变。
- 在投影选择合适时,增加判别器数量(K)可减少高频伪影并提高样本质量。
- 随着判别器增多,训练时间增加,但经过更长训练后,生成样本达到具有竞争力或更优的质量。
- 在 K-判别框架下对生成的脸部进行潜在空间插值,产生合理的中间面孔,表明潜在结构有意义。
- 在类似 CelebA 的人脸(64x64)上显示出明显的质量提升;在 Imagenet-canine 裁剪(128x128)上实验表明纹理和构图的真实感,尽管全局合理性欠缺。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。