[论文解读] Latent Constraints: Learning to Generate Conditionally from Unconditional Generative Models
本文提出一种方法,通过学习潜在空间中以判别器函数形式存在的潜在约束,实现从预训练的无条件生成模型(特别是VAE)进行条件生成。通过基于梯度的方法或近似策略网络优化潜在码,该方法在无需微调的情况下生成逼真且多样化的样本,同时保持身份一致性,并实现零样本条件控制。
Deep generative neural networks have proven effective at both conditional and unconditional modeling of complex data distributions. Conditional generation enables interactive control, but creating new controls often requires expensive retraining. In this paper, we develop a method to condition generation without retraining the model. By post-hoc learning latent constraints, value functions that identify regions in latent space that generate outputs with desired attributes, we can conditionally sample from these regions with gradient-based optimization or amortized actor functions. Combining attribute constraints with a universal "realism" constraint, which enforces similarity to the data distribution, we generate realistic conditional images from an unconditional variational autoencoder. Further, using gradient-based optimization, we demonstrate identity-preserving transformations that make the minimal adjustment in latent space to modify the attributes of an image. Finally, with discrete sequences of musical notes, we demonstrate zero-shot conditional generation, learning latent constraints in the absence of labeled data or a differentiable reward function. Code with dedicated cloud instance has been made publicly available (https://goo.gl/STGMGx).
研究动机与目标
- 在不微调的情况下,实现从预训练的无条件生成模型进行条件生成。
- 解决仅通过潜在空间约束生成具有特定属性的逼真且多样化样本的挑战。
- 通过最小化潜在空间扰动,在图像属性修改过程中保持身份一致性。
- 通过基于规则的约束和无标注数据,实现对离散序列(如音乐)的零样本条件生成。
- 通过通用真实感约束,将属性特定约束的学习与底层数据分布解耦。
提出的方法
- 训练VAE以优先保证重建质量,确保编码数据点接近真实数据流形。
- 学习两个判别器函数:一个用于属性约束($D_{\text{attr}}$),一个用于真实感($D_{\text{realism}}$),两者均训练以区分真实数据潜在表示与先验或转换后的样本。
- 通过基于梯度的优化,将潜在码向同时满足$D_{\text{attr}}$和$D_{\text{realism}}$的区域移动,最小化与原始输入的扰动。
- 训练一个近似策略函数$G(z)$,将先验样本映射到同时满足两个约束的潜在码,实现高效采样。
- 对于离散序列的零样本生成,使用基于规则的约束,并在无标注数据或可微奖励函数的情况下训练策略-评论家对。
- 通过联合优化结合属性与真实感约束,确保生成样本既符合属性要求,又具有感知上的逼真性。
实验结果
研究问题
- RQ1是否可以在不微调的情况下,对预训练的无条件VAE实现条件生成?
- RQ2是否可以通过最小化潜在空间扰动并在满足属性约束的同时,实现保持身份的图像变换?
- RQ3是否可以不依赖标注数据或可微奖励函数,对离散序列(如音乐)实现零样本条件生成?
- RQ4如何通过通用真实感约束在不牺牲重建保真度的前提下,提升潜在空间中样本的质量与多样性?
- RQ5基于梯度的优化与近似策略函数是否能有效联合强制执行多种潜在约束,并适用于不同模态的数据?
主要发现
- 该方法通过优化潜在码以同时满足属性与真实感约束,成功从预训练VAE生成逼真且多样的条件图像。
- 通过极小的潜在空间调整实现了身份保持的变换,即使在修改表情或发型等属性时,仍能保持感知上的身份一致性。
- 在音乐生成中,当仅优化音高约束时,方法满足C大调音阶约束的比例达到70.8%,且潜在空间扰动极小。
- 当同时应用音高与密度约束时,方法在保持极小但略大的潜在空间扰动下,实现了较高的约束满足率。
- 真实感约束显著提升了样本质量,且未降低重建保真度,其表现优于标准VAE且似然方差较低。
- 该方法仅使用基于规则的约束和无标注数据,即实现了离散序列的零样本条件生成,展示了超越监督设定的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。