[论文解读] Controlling generative models with continuous factors of variations
本论文提出一种方法,在不使用标签的情况下发现可解释的潜在空间方向,从而编码连续的图像变化(如位置和缩放),实现对 GANs 和 VAEs 生成的精确控制。
Recent deep generative models are able to provide photo-realistic images as well as visual or textual content embeddings useful to address various tasks of computer vision and natural language processing. Their usefulness is nevertheless often limited by the lack of control over the generative process or the poor understanding of the learned representation. To overcome these major issues, very recent work has shown the interest of studying the semantics of the latent space of generative models. In this paper, we propose to advance on the interpretability of the latent space of generative models by introducing a new method to find meaningful directions in the latent space of any generative model along which we can move to control precisely specific properties of the generated image like the position or scale of the object in the image. Our method does not require human annotations and is particularly well suited for the search of directions encoding simple transformations of the generated image, such as translation, zoom or color variations. We demonstrate the effectiveness of our method qualitatively and quantitatively, both for GANs and variational auto-encoders.
研究动机与目标
- 激发对可控生成模型与可解释潜在表示的需求。
- 提出一种在不需要标签或编码器的情况下,找到对应连续变化因子的潜在空间方向的方法。
- 展示沿潜在空间方向移动可以对图像属性(如物体位置和缩放)进行精确控制。
- 提供一种重构损失和优化策略,用于反演生成器并估计潜在轨迹。
- 研究解耦度如何影响可控性,并揭示跨模型的潜在空间结构。
提出的方法
- 定义 G:Z->I,并寻求 z_T 使 G(z_T) ≈ T_T(I),其中对带参数 t 的连续变换 T_T。
- 使用重构损失 L 最小化 L(G(z), T(I)),并对 z 的范数施加约束 (||z|| ≤ sqrt(d))。
- 提出一种纹理保持损失 L(I1,I2) = ||F{I1−I2}F{σ}||^2,以提高反演的锐度。
- 将 T_T 分解为小步骤,并依次用先前的 z 作为初始化来优化 z_n 以遍历潜在轨迹(算法 1)。
- 将变化因子编码为 t = f(z) = g(<z,u>),其中 ||u||=1,训练 g_theta 以从潜在投影预测延迟的参数变化 δt,从而实现因子的参数化模型。
- 通过训练预测 δt(而不是 t)来处理未知 t,并学习一种映射,通过等式 (6) 与提出的 g_theta 捕捉因子分布。
- 可选地采样 z,以使用所学的 g_theta 和所选目标分布来塑形生成输出的分布。
实验结果
研究问题
- RQ1是否可以将连续的变化因子(例如位置和缩放)作为潜在空间方向,在不使用标签或编码器的情况下进行捕捉?
- RQ2通过在这些潜在方向上移动,我们在生成图像中控制对象的平移和缩放的精度有多高?
- RQ3哪种重构损失有助于在优化过程中有效反演生成器并保持纹理?
- RQ4潜在空间的解耦程度如何影响对生成的控制能力?
- RQ5所识别的方向是否在跨对象类别和模型(例如在 BigGAN 类别或 VAE 之间)中共享?
主要发现
- 对应水平/垂直平移和缩放的潜在空间方向能够在 BigGAN 与 β-VAE 设置中实现对生成图像的精确控制。
- 空间因子方向在 BigGAN 潜在码的早期部分中编码较多;垂直位置受高层块的影响更强,可能是由于背景相关性所致。
- 解耦表示(β-VAE 中更高的 β)提升可控性,降低受控因子的标准差。
- 一种新的重构损失,忽略高频分量,能获得比像素级 MSE 更清晰的反演和更真实的重建。
- 提出的基于轨迹的优化不需要基于编码器的反演或额外的训练,可以直接应用于现有生成器。
- 变化因子的常见方向似乎在多个对象类别之间共享,表明存在与类别无关的潜在结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。