[论文解读] Generating Images Part by Part with Composite Generative Adversarial Networks
本文提出复合生成对抗网络(CGAN),一种新颖的无监督图像生成框架,通过多个独立生成器分部分生成复杂图像,每个生成器负责一个语义组件(例如背景、面部、头发),并利用透明度混合(alpha blending)进行组合。该模型在无需标签的情况下实现了与标准 GAN 相当的图像质量,并支持解耦、分层的图像生成,通过 SSIM 分数和结合变分自编码器(VAE)的潜在空间可视化得到验证。
Image generation remains a fundamental problem in artificial intelligence in general and deep learning in specific. The generative adversarial network (GAN) was successful in generating high quality samples of natural images. We propose a model called composite generative adversarial network, that reveals the complex structure of images with multiple generators in which each generator generates some part of the image. Those parts are combined by alpha blending process to create a new single image. It can generate, for example, background and face sequentially with two generators, after training on face dataset. Training was done in an unsupervised way without any labels about what each generator should generate. We found possibilities of learning the structure by using this generative model empirically.
研究动机与目标
- 解决通过无监督学习生成具有解耦变化因子的复杂、结构化图像的挑战。
- 开发一种分层生成模型,通过按顺序生成语义部分(例如背景、面部、头发)来构建图像。
- 在无类别标签的情况下,可视化无监督图像生成中潜在空间的解耦结构。
- 通过与变分自编码器(VAE)集成以及应用透明度损失正则化,提升图像质量和解耦性。
提出的方法
- CGAN 使用循环网络处理一系列潜在向量 $ z_1, z_2, ..., z_n $,这些向量被独立送入不同的生成器,以生成 RGBA 图像 $ C_1, C_2, ..., C_n $。
- 每个生成器生成带有透明度通道的局部图像,通过透明度混合按顺序组合,以保留先前内容并叠加新组件。
- 最终输出 $ O^{(n)} $ 通过混合 $ C_1 $ 到 $ C_n $ 形成,判别器被训练以区分真实图像与合成输出。
- CGAN+VAE 集成变分自编码器,直接从图像学习潜在编码,从而实现对解耦潜在子流形的可视化。
- 应用透明度损失以减少模糊性,并提升中间生成部分的可分性,尤其在多生成器设置中效果显著。
- 使用 SSIM 评估图像质量,以生成样本与真实测试图像之间的最大 SSIM 作为指标。
实验结果
研究问题
- RQ1生成模型是否能通过无显式监督的语义部分顺序生成方式,产生逼真且复杂的图像?
- RQ2在顺序框架中,多个潜在变量如何促进图像生成中的解耦表征学习?
- RQ3CGAN 与 VAE 的集成是否能在无类别标签的情况下揭示潜在空间中的有意义子流形?
- RQ4透明度混合与透明度损失在多大程度上提升了中间图像部分的质量与解耦性?
- RQ5在感知质量和结构相似性方面,CGAN 与标准 GAN 相比表现如何?
主要发现
- CGAN 在 CelebA 数据集上(n=2)取得 0.443 ± 0.075 的 SSIM 分数,在 CelebA 数据集上(n=3)取得 0.443 ± 0.077 的 SSIM 分数,与标准 GAN(0.449 ± 0.077)相当,表明其具有较高的感知质量。
- 在 CGAN+A 中引入透明度损失可减少模糊性,并提升中间部分的可分性,尤其在 CelebA(n=3)的第三个生成器中表现显著。
- CGAN+VAE 有效可视化了潜在空间中的解耦子流形,显示 $ z_1 $ 控制整体结构,而 $ z_2, z_3, ... $ 条件性地调节细节。
- 在 Pororo 动画数据集中,CGAN 即使在训练数据有限的情况下,也能使用两个或三个生成器成功生成具有明确角色和背景的图像。
- 在 102 Flowers 数据集上,CGAN 使用两个生成器达到 SSIM 0.290 ± 0.069,表明其在细粒度图像生成任务中的有效性。
- 该模型表明,通过隐式分解图像组件的迭代式、基于部分的合成,无监督、分层图像生成是可行的。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。