[论文解读] Conditional Image Synthesis With Auxiliary Classifier GANs
本论文介绍了 AC-GANs,一种带辅助分类器的条件生成对抗网络变体,能够生成 128×128 的高分辨率、全局一致的 ImageNet 样本,并引入用于评估输出判别性与多样性的新指标。
Synthesizing high resolution photorealistic images has been a long-standing challenge in machine learning. In this paper we introduce new methods for the improved training of generative adversarial networks (GANs) for image synthesis. We construct a variant of GANs employing label conditioning that results in 128x128 resolution image samples exhibiting global coherence. We expand on previous work for image quality assessment to provide two new analyses for assessing the discriminability and diversity of samples from class-conditional image synthesis models. These analyses demonstrate that high resolution samples provide class information not present in low resolution samples. Across 1000 ImageNet classes, 128x128 samples are more than twice as discriminable as artificially resized 32x32 samples. In addition, 84.7% of the classes have samples exhibiting diversity comparable to real ImageNet data.
研究动机与目标
- 为基于 GAN 的图像合成提供改进的训练动机与实现,支持类别条件和辅助分类。
- 在所有 1000 个 ImageNet 类别上演示 128×128 分辨率的图像生成,具有全局一致性。
- 引入用于评估模型在输出分辨率使用度(判别性)和类内多样性(MS-SSIM)的指标。
- 分析类别划分和数据集规模如何影响样本质量与多样性。
- 提供证据表明高质量样本可以是多样的,而不仅仅是记忆化或塌缩。
- 为使用 AC-GAN 的潜在半监督学习应用提供见解。
提出的方法
- 提出辅助分类器 GAN(AC-GAN),其中 G 取 (c, z) 以生成 X_fake;D 输出 S(来源)和 C(类别)。
- 训练 D 最大化 L_S + L_C,G 最大化 L_C − L_S,其中 L_S 是正确来源的对数似然,L_C 是正确类别的对数似然。
- 训练一个由 100 个 AC-GAN 组成的集成,每个在 ImageNet 的 10 类拆分上进行,以扩展到 1000 类。
- 通过对下采样到较低分辨率的图像进行 Inception 准确度评估判别性,表明高分辨率输出携带更多类别信息。
- 使用 MS-SSIM 度量跨生成样本的类内多样性,并与 ImageNet 训练数据进行比较。
实验结果
研究问题
- RQ1AC-GAN 能否为所有 ImageNet 类生成全球一致的 128×128 图像?
- RQ2高分辨率生成样本是否保留比下采样或低分辨率输出更多的类别信息?
- RQ3生成样本在感知多样性方面是否与真实数据在许多类别中相当?
- RQ4将 1000 个类别分成较小的拆分会如何影响样本质量和模型训练稳定性?
- RQ5生成样本是否容易过拟合或记忆化,潜在的潜在结构能否通过潜变量插值揭示有意义的结构?
主要发现
- AC-GAN 能为所有 1000 个 ImageNet 类别生成 128×128 的样本,具有全局一致性。
- 将 128×128 样本下采样到 32×32 会导致可视觉判别性下降 50%;84.4% 的类别在 128×128 的 Inception 准确度高于 32×32。
- 生成样本的平均 MS-SSIM 多样性在 1000 个类别中对 847 个类别低于训练数据(84.7% 的类别的多样性与真实数据相当)。
- AC-GAN 在 CIFAR-10 上的 Inception 分数为 8.25±0.07,未使用 Salimans 等 2016 技术,超过先前的最先进水平 8.09±0.07。
- 潜在空间插值显示有意义的语义转变,且 z 与类别标签的部分解耦,提示组合结构。
- 最近邻分析表明生成样本并非训练数据的记忆拷贝。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。