[论文解读] Data-Efficient Instance Generation from Instance Discrimination
InsGen 在 GAN 判别器上新增一个实例判别的辅助任务,使用真实图像和合成图像来学习更具判别性的表示并促进多样化的生成,从而提高数据效率。
Generative Adversarial Networks (GANs) have significantly advanced image synthesis, however, the synthesis quality drops significantly given a limited amount of training data. To improve the data efficiency of GAN training, prior work typically employs data augmentation to mitigate the overfitting of the discriminator yet still learn the discriminator with a bi-classification (i.e., real vs. fake) task. In this work, we propose a data-efficient Instance Generation (InsGen) method based on instance discrimination. Concretely, besides differentiating the real domain from the fake domain, the discriminator is required to distinguish every individual image, no matter it comes from the training set or from the generator. In this way, the discriminator can benefit from the infinite synthesized samples for training, alleviating the overfitting problem caused by insufficient training data. A noise perturbation strategy is further introduced to improve its discriminative power. Meanwhile, the learned instance discrimination capability from the discriminator is in turn exploited to encourage the generator for diverse generation. Extensive experiments demonstrate the effectiveness of our method on a variety of datasets and training settings. Noticeably, on the setting of 2K training images from the FFHQ dataset, we outperform the state-of-the-art approach with 23.5% FID improvement.
研究动机与目标
- 在训练数据稀缺时,推动提升 GAN 的数据效率。
- 提出将实例判别作为判别器的辅助任务,以利用无限的伪样本。
- 实现对伪样本的噪声扰动判别,以增强判别能力。
- 建立一个回环机制,使生成器学习产生高度多样的样本。
- 在 FFHQ 和 AFHQ 上展示超越先前数据增强基线的显著改进。
提出的方法
- 在 GAN 判别器之上为真实图像引入实例判别头。
- 同样为伪图像加入一个独立的实例判别头,针对伪样本采用噪声扰动策略。
- 使用一个队列(MoCo 风格)来存储特征以实现高效的实例判别训练。
- 应用回环目标,使生成器被训练以生成能够被伪实例头单独识别的样本(不带扰动)。
- 通过加权项(λ 参数)将标准 GAN 损失与实例判别损失结合起来。
- 在 StyleGAN2-ADA 上演示实现,且不改变核心架构或数据增强策略。
实验结果
研究问题
- RQ1在数据有限的情况下,实例判别是否能提升判别器质量,从而改善生成器合成?
- RQ2伪样本(生成样本)是否提供一个有用的、无限的数据源来学习判别性表示?
- RQ3在实例判别过程中对伪图像进行扰动是否能提升鲁棒性和整体合成质量?
- RQ4通过实例判别强制实现多样性生成是否转化为在 FID 和视觉保真度上的可衡量提升?
主要发现
| 方法 | 2K | 10K | 140K |
|---|---|---|---|
| PA-GAN | 56.49 | 27.71 | 3.78 |
| zCR | 71.61 | 23.02 | 3.45 |
| Auxiliary rotation | 66.64 | 25.37 | 4.16 |
| StyleGAN2 | 78.80 | 30.73 | 3.66 |
| w/ Shallow mapping | 71.35 | 27.71 | 3.59 |
| w/ Adaptive dropout | 67.23 | 23.33 | 4.16 |
| w/ DiffAugment | 24.32 | 7.86 | - |
| w/ ADA | 15.60* | 7.29* | 3.88 |
| InsGen (Ours) | 11.92 | 4.90 | 3.31 |
- InsGen 在不同数据规模上相对于 ADA 实现显著的 FID 降幅(如 FFHQ 2K、10K、70K)。
- 在 FFHQ 的 2K、10K 和 70K 训练图像下,InsGen 分别较 ADA 基线实现 11.92、4.90、3.31 的 FID 提升(表中数值)。
- AFHQ 结果显示 InsGen 在猫、狗和野生动物类别上实现的 FID 均低于先前方法。
- 消融实验显示不带伪判别的实例判别也有增益;加入伪判别和噪声扰动可带来进一步提升。
- 增加用于实例判别的合成样本数量可持续地提高 FID,表明来自无限伪数据的好处。
- 判别器 logits 表明真实与伪样本的分离更强,使用 InsGen 时训练更稳定。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。