[论文解读] On the "steerability" of generative adversarial networks
本文研究了在潜在空间中可以将GANs引导到多大程度以诱发简单的图像变换(相机移动、颜色变化),并分析由于训练数据偏差导致的限制,提出通过数据增强和联合优化来增加可操控性的方法。
An open secret in contemporary machine learning is that many models work beautifully on standard benchmarks but fail to generalize outside the lab. This has been attributed to biased training data, which provide poor coverage over real world events. Generative models are no exception, but recent advances in generative adversarial networks (GANs) suggest otherwise - these models can now synthesize strikingly realistic and diverse images. Is generative modeling of photos a solved problem? We show that although current GANs can fit standard datasets very well, they still fall short of being comprehensive models of the visual manifold. In particular, we study their ability to fit simple transformations such as camera movements and color changes. We find that the models reflect the biases of the datasets on which they are trained (e.g., centered objects), but that they also exhibit some capacity for generalization: by "steering" in latent space, we can shift the distribution while still creating realistic images. We hypothesize that the degree of distributional shift is related to the breadth of the training data distribution. Thus, we conduct experiments to quantify the limits of GAN transformations and introduce techniques to mitigate the problem. Code is released on our project page: https://ali-design.github.io/gan_steerability/
研究动机与目标
- 阐明为什么GAN在现实视觉中可能无法完全超越训练数据偏差实现泛化。
- 量化潜在空间引导能产生有意义变换的程度(例如相机运动、颜色变化)。
- 研究限制可操控性的因素,包括数据集偏差和模型结构。
- 通过数据增强和生成器与潜在空间遍历的联合训练来提高可操控性的方法。
提出的方法
- 定义一个潜在空间遍历 w,当沿着 z -> z + αw 移动时能诱发目标变换。
- 最小化一个目标,使编辑后的输出与目标编辑对齐,使用 G(z+αw) 与 edit(G(z), α) 之间的 L2 损失(或感知型 LPIPS)
- 扩展到非线性遍历 f,以进行迭代的小幅编辑,近似欧拉步以实现更大变换。
- 通过比较数据集中的属性分布与变换后的输出之间的差异来量化可操控性。
- 探索将 G 与 w 进行联合优化,结合编辑损失和 GAN 损失,以扩展可操控范围。
实验结果
研究问题
- RQ1在未标注属性的情况下,简单的GAN潜在空间遍历能否产生真实的相机式变换(缩放、平移、颜色变化)?
- RQ2数据集偏差和模型架构如何影响GAN的可操控范围?
- RQ3数据增强和联合训练是否能扩大可行、真实的变换范围?
- RQ4在基本变换方面,线性遍历是否在不同架构间与非线性遍历表现相当?
- RQ5在不同的GAN架构(BigGAN、StyleGAN、DCGAN)和数据集上,是否可操控性是一致的?
主要发现
- 潜在空间遍历可以在生成的图像中诱发相机运动和颜色变换,而无需标注目标。
- 线性遍历在简单变换上通常与非线性遍历相当,暗示潜在空间中存在大致线性化。
- 变换的程度受限,并与每个类别的训练数据变异性相关。
- 可操控性在架构之间(BigGAN、StyleGAN、DCGAN)具有一般性,但表现出不同的解耦特性。
- 数据增强和生成器与遍历的联合训练提高了可操控性,并实现了更大规模的变换。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。