[论文解读] Stacked Generative Adversarial Networks
本文提出堆叠生成对抗网络(SGAN),一种分层生成模型,通过堆叠条件 GAN 逐步从抽象到详细地细化表征,以生成高保真度图像。通过利用预训练判别特征作为表征判别器,并引入条件损失与熵损失,SGAN 在 CIFAR-10 上实现了最先进的 Inception 分数,生成的图像在多样性和真实感方面优于标准 GAN。
In this paper, we propose a novel generative model named Stacked Generative Adversarial Networks (SGAN), which is trained to invert the hierarchical representations of a bottom-up discriminative network. Our model consists of a top-down stack of GANs, each learned to generate lower-level representations conditioned on higher-level representations. A representation discriminator is introduced at each feature hierarchy to encourage the representation manifold of the generator to align with that of the bottom-up discriminative network, leveraging the powerful discriminative representations to guide the generative model. In addition, we introduce a conditional loss that encourages the use of conditional information from the layer above, and a novel entropy loss that maximizes a variational lower bound on the conditional entropy of generator outputs. We first train each stack independently, and then train the whole model end-to-end. Unlike the original GAN that uses a single noise vector to represent all the variations, our SGAN decomposes variations into multiple levels and gradually resolves uncertainties in the top-down generative process. Based on visual inspection, Inception scores and visual Turing test, we demonstrate that SGAN is able to generate images of much higher quality than GANs without stacking.
研究动机与目标
- 为解决深度生成模型在生成高质量、多样化图像方面的挑战,通过将复杂的数据分布分解为可管理的分层组件。
- 利用预训练判别网络中的强大分层表征,引导自顶向下的生成模型训练。
- 通过引入一种新颖的熵损失,最大化生成器输出的条件熵,从而在条件 GAN 中提升样本多样性与质量。
- 在分层的每一层通过表征判别器提供中间监督,使生成的表征与判别网络中的真实表征对齐。
- 证明通过分层条件控制与多级监督堆叠 GAN,可显著优于标准 GAN,在图像质量与多样性方面表现更优。
提出的方法
- 该模型由一系列自顶向下的 GAN 堆叠而成,每个生成器根据上层提供的高层特征生成低层表征。
- 在每一层引入表征判别器,用于区分来自预训练判别网络的真实中间特征与对应生成器生成的虚假特征。
- 应用条件损失,确保每个生成器能有效利用高层条件信息,从而提升生成结果的保真度与一致性。
- 提出一种新颖的熵损失,以最大化生成器输出条件熵的变分下界,防止模式崩溃并增强多样性。
- 模型训练分为两个阶段:首先,各层独立地使用对抗损失与辅助损失进行预训练;其次,对完整模型进行端到端微调。
- 最顶层的生成器以类别标签作为输入,最底层的生成器输出最终图像,从而实现条件生成。
实验结果
研究问题
- RQ1与单个 GAN 相比,通过分层条件控制堆叠多个 GAN 是否能提升图像生成质量?
- RQ2与预训练判别网络匹配的表征判别器是否能提升生成图像的真实感与一致性?
- RQ3联合引入条件损失与熵损失是否能同时提升条件 GAN 的保真度与多样性?
- RQ4两阶段训练策略(先对各层独立预训练,再进行端到端微调)是否能提升收敛性与性能?
- RQ5与标准 GAN 中使用单一噪声向量相比,分层结构对各层级变化的分解在多大程度上提升了生成质量?
主要发现
- SGAN 在 CIFAR-10 上实现了 8.88 的 SOTA Inception 分数,显著优于基线 DCGAN 及先前方法。
- 消融研究显示,即使不采用联合训练,SGAN 仍能生成高质量样本,且在 Inception 分数上优于所有先前方法,表明堆叠架构具有强鲁棒性。
- 在标准 DCGAN 中加入熵损失可防止模式崩溃并实现多样化图像生成,而仅使用条件损失则导致每类生成单一图像(模式崩溃)。
- 采用联合训练的完整 SGAN 模型在 Inception 分数上优于未使用联合训练的 SGAN,证明了端到端微调的优势。
- Inception 分数与视觉质量具有良好相关性,但对模式崩溃不敏感;这一现象在消融研究中得到验证——崩溃样本与多样化样本的分数相同。
- 所提出的熵损失能有效提升条件 GAN 中的多样性,表明其可作为其他条件生成任务中的通用正则化方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。