[论文解读] Controllable and Compositional Generation with Latent-Space Energy-Based Models
本文提出 LACE(潜在空间组合能量模型),一种在预训练生成模型(如 StyleGAN)的潜在空间中使用基于能量的模型实现可控且组合式生成的方法。通过训练分类器以建模条件属性的能量函数,并利用自适应 ODE 求解器进行采样,LACE 实现了在 1024×1024 分辨率下快速、稳健且高质量的图像生成,支持对未见过的属性组合进行零样本组合生成。
Controllable generation is one of the key requirements for successful adoption of deep generative models in real-world applications, but it still remains as a great challenge. In particular, the compositional ability to generate novel concept combinations is out of reach for most current models. In this work, we use energy-based models (EBMs) to handle compositional generation over a set of attributes. To make them scalable to high-resolution image generation, we introduce an EBM in the latent space of a pre-trained generative model such as StyleGAN. We propose a novel EBM formulation representing the joint distribution of data and attributes together, and we show how sampling from it is formulated as solving an ordinary differential equation (ODE). Given a pre-trained generator, all we need for controllable generation is to train an attribute classifier. Sampling with ODEs is done efficiently in the latent space and is robust to hyperparameters. Thus, our method is simple, fast to train, and efficient to sample. Experimental results show that our method outperforms the state-of-the-art in both conditional sampling and sequential editing. In compositional generation, our method excels at zero-shot generation of unseen attribute combinations. Also, by composing energy functions with logical operators, this work is the first to achieve such compositionality in generating photo-realistic images of resolution 1024x1024. Code is available at https://github.com/NVlabs/LACE.
研究动机与目标
- 解决深度生成模型中属性组合生成的挑战,即难以生成新的属性组合。
- 克服条件 GAN 和潜在方向方法的局限性,这些方法在面对未见属性组合时表现不佳,且需要重新训练。
- 利用预训练生成器实现在高分辨率(1024×1024)下的高效、可控图像生成。
- 通过在潜在空间而非像素空间使用 ODE 求解器,实现稳健且快速的采样。
- 通过组合能量函数实现逻辑组合,以生成具有复杂属性组合的逼真图像。
提出的方法
- 在预训练生成器(如 StyleGAN)的潜在空间中构建联合基于能量的模型(EBM),其中数据分布为隐式分布,属性分布通过分类器进行建模。
- 使用重参数化技巧将 EBM 的能量函数表达在潜在空间中,将其转换为已知先验(标准高斯分布),从而将训练过程简化为仅分类器学习。
- 通过从反向扩散过程导出的概率流 ODE 进行采样,实现高效且稳健的采样,支持自适应步长。
- 利用 ODE 求解器(如 dopri5)进行采样,其稳定性更高,对超参数的敏感性低于传统的 Langevin 动力学。
- 通过使用逻辑运算符(如 AND、OR)组合多个能量函数,实现组合式生成,以生成具有复杂属性组合的图像。
- 在数据空间中训练属性分类器,并在潜在空间中执行所有采样操作,确保高效率并可扩展至高分辨率图像。
实验结果
研究问题
- RQ1我们能否利用预训练生成模型,在不需微调的情况下,实现对未见过的属性组合的零样本可控图像生成?
- RQ2在潜在空间中通过 ODE 求解器采样是否在速度、稳定性和图像质量方面优于传统的 Langevin 动力学?
- RQ3能否通过逻辑运算组合不同属性的能量函数,以生成新颖且逼真的图像配置?
- RQ4在条件采样和序列编辑任务中,该方法与最先进基线相比表现如何?
- RQ5该方法在高分辨率(1024×1024)逼真图像生成中,对复杂属性控制的泛化能力如何?
主要发现
- 在 FFHQ 数据集上,LACE 的训练速度比 StyleFlow 快 25 倍,显著提升了效率。
- 在 CIFAR-10 上,LACE 采样速度比像素空间 EBM 和基于分数的模型分别快至少 49 倍和 876 倍,每批 64 张图像的推理时间仅为 0.50 秒。
- 在 CIFAR-10 上,LACE 的 Fréchet Inception Distance(FID)为 6.63,Attribute Consistency Score(ACC)为 0.972,优于 LACE-LD 和其他基线方法。
- LACE 实现了对未见属性组合(如稀有面部属性组合)的零样本生成,且保持了高视觉保真度。
- 基于 ODE 的采样对超参数具有鲁棒性:即使绝对误差容限(atol)和相对误差容限(rtol)较小,也能持续生成高质量样本,而 Langevin 动力学则存在 ACC-FID 之间的权衡。
- 即使使用简单的 Euler 方法,LACE 仍能保持合理性能(FID 5.36–6.31),证实了 ODE 公式在不同数值求解器下的稳定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。