[论文解读] On Self Modulation for Generative Adversarial Networks
Self-modulation 调制生成器特征图,使用输入噪声向量,提升 GAN 在不同数据集、架构、损失函数和超参数下的性能,无需额外标签。它在 5-35% 相对 FID 降幅方面取得结果,在 124/144 设置中实现提升。
Training Generative Adversarial Networks (GANs) is notoriously challenging. We propose and study an architectural modification, self-modulation, which improves GAN performance across different data sets, architectures, losses, regularizers, and hyperparameter settings. Intuitively, self-modulation allows the intermediate feature maps of a generator to change as a function of the input noise vector. While reminiscent of other conditioning techniques, it requires no labeled data. In a large-scale empirical study we observe a relative decrease of $5\%-35\%$ in FID. Furthermore, all else being equal, adding this modification to the generator leads to improved performance in $124/144$ ($86\%$) of the studied settings. Self-modulation is a simple architectural change that requires no additional parameter tuning, which suggests that it can be applied readily to any GAN.
研究动机与目标
- 稳定 GAN 训练并在不依赖外部条件信息的情况下提升样本质量。
- 展示一种简单架构修改在跨数据集、架构、损失和超参数上的通用适用性。
- 比较无条件生成和有条件生成场景,并分析与可用标签的交互。
- 提供诊断工具,理解调制如何影响生成器的条件化和训练动态。
提出的方法
- 通过一个小型 MLP 使 BN 的缩放和偏移参数依赖于生成器输入 z 来引入自调制。
- 对于有条件生成,先通过简单的双线性交互将 z 与标签信息组合,然后再应用调制。
- 在两种损失(非饱和和 hinge)、两种归一化/正则化方案(梯度惩罚和谱归一化)、两种架构(类似 DCGAN 与残余)、以及多组超参数上进行评估。
- 在 CIFAR-10、CelebA-HQ、LSUN-bedroom 以及 ImageNet 上训练 100k 步(ImageNet 更长训练为 500k 步)并使用 FID 与 IS 进行评估。
- 将自调制与基线 BN 进行比较,在无配对(无标签)和配对(有标签)设置下,报告跨超参数的最佳模型。
实验结果
研究问题
- RQ1自调制是否在多样数据集、架构以及损失/正则化设置下提升 GAN 性能?
- RQ2自调制能否在无条件和有条件 GAN 中带来收益?在可用标签存在时如何与标签信息交互?
- RQ3调制在生成器的哪一层最有益?是否需要对所有层进行调制?
- RQ4自调制如何影响诊断指标,如生成器雅可比矩阵的条件数以及精度/召回?
主要发现
- 采用自调制的设置中 FID 提升介于 4% 到 33% 之间。
- 在无配对设置中,自调制在 32 种配置中有 30 种超过基线。
- 在有配对(有条件)设置中,自调制在多数据集上对 FID 获得显著提升,在 IS 方面也有可观提升。
- 应用于 resnet 架构时,自调制在损失、正则化或归一化的使用与否下均能持续改进性能。
- 使用更长的训练(500k 步)显示持续改进(无条件 FID 降幅 11%,有条件 13%)。
- 自调制在应用于后期层时往往提供最大的收益,且对每一层进行调制能获得最佳结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。