[论文解读] Improving Inversion and Generation Diversity in StyleGAN using a Gaussianized Latent Space
本文通过在中间潜在空间(W+)上应用非线性变换(Leaky ReLU),提出了一种高斯化潜在空间用于StyleGAN,从而实现可处理的高斯先验,提升了重建稳定性和生成多样性。该方法在不损失多样性的前提下减少了伪影,相较于裁剪方法在保持面部身份方面表现更优,同时FID得分相当。
Modern Generative Adversarial Networks are capable of creating artificial, photorealistic images from latent vectors living in a low-dimensional learned latent space. It has been shown that a wide range of images can be projected into this space, including images outside of the domain that the generator was trained on. However, while in this case the generator reproduces the pixels and textures of the images, the reconstructed latent vectors are unstable and small perturbations result in significant image distortions. In this work, we propose to explicitly model the data distribution in latent space. We show that, under a simple nonlinear operation, the data distribution can be modeled as Gaussian and therefore expressed using sufficient statistics. This yields a simple Gaussian prior, which we use to regularize the projection of images into the latent space. The resulting projections lie in smoother and better behaved regions of the latent space, as shown using interpolation performance for both real and generated images. Furthermore, the Gaussian model of the distribution in latent space allows us to investigate the origins of artifacts in the generator output, and provides a method for reducing these artifacts while maintaining diversity of the generated images.
研究动机与目标
- 解决在对分布外图像进行重建时,StyleGAN潜在空间中出现的不稳定性和插值性能差的问题。
- 将中间潜在空间(W+)中的数据分布建模为高斯分布,以在重建过程中实现更好的正则化。
- 识别并缓解生成图像中的伪影,而不会降低多样性,这与标准裁剪方法不同。
- 为潜在空间重建提供一种基于数据驱动、原理清晰的先验,以增强语义一致性和图像质量。
提出的方法
- 对W+中的中间潜在向量应用非线性变换——具体为逐元素Leaky ReLU——以实现数据分布的高斯化。
- 估计变换后潜在向量的均值μ和协方差Σ,以定义闭式高斯先验。
- 将高斯先验用作重建优化中的正则化项,引导潜在码搜索向潜在空间中更平滑、更稳定的方向进行。
- 对高斯化后的潜在空间执行主成分分析(PCA),以识别导致伪影的高幅值分量。
- 对超过阈值τσ的分量应用对数压缩,以减少伪影影响,同时保持多样性。
- 从压缩并重新投影的潜在码中重建图像,生成伪影更少、多样性更高的样本。
实验结果
研究问题
- RQ1在对StyleGAN的W+空间中的潜在向量应用简单非线性变换后,其数据分布是否可有效建模为高斯分布?
- RQ2在潜在空间中施加高斯先验是否能提升对分布外图像的图像重建稳定性与质量?
- RQ3能否利用高斯模型识别并消除生成图像中的伪影,而不会降低视觉多样性?
- RQ4与裁剪方法相比,对高幅值主成分进行对数压缩在保留面部身份和图像质量方面表现如何?
主要发现
- 在对StyleGAN的W+向量应用逐元素Leaky ReLU后,潜在空间的数据分布呈现出可建模为均值与协方差的高斯分布。
- 将高斯先验引入重建过程后,显著提升了真实图像与生成图像之间的插值性能,表明潜在表示更加平滑且稳定。
- 对高幅值主成分实施对数压缩能有效减少生成图像中的伪影,尤其在人脸图像中效果显著。
- 在与裁剪方法相同的Fréchet Inception Distance(FID)下,所提方法在面部身份保留方面表现更优,这通过面部嵌入空间中的余弦相似度测量得到验证。
- 即使在修正伪影后,该方法仍保持更高的视觉多样性,且生成的图像在主观上更接近原始输入。
- 裁剪与压缩的FID曲线形状相似,但所提方法在相同FID值下实现了更优的感知质量与身份保留效果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。