QUICK REVIEW

[论文解读] Diffusion Models already have a Semantic Latent Space

Mingi Kwon, Jaeseok Jeong|arXiv (Cornell University)|Oct 20, 2022

Generative Adversarial Networks and Image Synthesis被引用 52

一句话总结

本文提出 Asyrp，一种非对称反向过程，在冻结的预训练扩散模型中发现一个语义潜在空间（h-space），从而实现可控、高质量且具有数据集泛化能力的属性编辑。它在不同架构和数据集上展示了 h-space 的性质（同质性、线性、鲁棒性、一致性），并在用户研究中优于 DiffusionCLIP。

ABSTRACT

Diffusion models achieve outstanding generative performance in various domains. Despite their great success, they lack semantic latent space which is essential for controlling the generative process. To address the problem, we propose asymmetric reverse process (Asyrp) which discovers the semantic latent space in frozen pretrained diffusion models. Our semantic latent space, named h-space, has nice properties for accommodating semantic image manipulation: homogeneity, linearity, robustness, and consistency across timesteps. In addition, we introduce a principled design of the generative process for versatile editing and quality boost ing by quantifiable measures: editing strength of an interval and quality deficiency at a timestep. Our method is applicable to various architectures (DDPM++, iD- DPM, and ADM) and datasets (CelebA-HQ, AFHQ-dog, LSUN-church, LSUN- bedroom, and METFACES). Project page: https://kwonminki.github.io/Asyrp/

研究动机与目标

为扩散模型中传统上缺乏语义潜在空间的情况提供动机，用于语义编辑。
提出 Asyrp，以揭示并利用冻结扩散模型中的语义潜在空间（h-space）。
给出一个有原则性的生成过程，用于编辑与质量提升，并给出定量度量。
在不同架构（DDPM++、iDDPM、ADM）和数据集（CelebA-HQ、AFHQ-dog、LSUN-church、LSUN-bedroom、MetFaces）上的多样性表现。

提出的方法

提出一个不对称的反向过程，在保持向 x_t 的方向一致的同时通过移动预测噪声来实现编辑（方程 6）。
通过噪声预测器的瓶颈特征 h_t 来控制编辑，以形成 h-space，并通过隐式函数 f_t 传递推断出的 Δh_t，实现鲁棒、快速学习。
定义一个输出 Δh_t 的隐式神经方向 f_t(h_t)，实现对时步和样本的快速、可泛化编辑。
使用基于 CLIP 的方向性损失，使编辑与目标属性对齐，同时对变化进行正则化，以保持图像质量（方程 7）。
采用三阶段生成过程（使用 Asyrp 进行编辑、传统去噪、质量提升），并基于 LPIPS 与基于 CLIP 的指标来确定可量化的区间选择（t_edit、t_boost）。
利用 DDIM 风格的子序列加速，将 f_t 泛化到未见过的时步和瓶颈特征。

实验结果

研究问题

RQ1冻结的预训练扩散模型中是否存在一个语义潜在空间，能够在不微调的情况下实现属性编辑？
RQ2h-space 需要具备哪些特性，才能在样本和时步之间支持可靠、线性、鲁棒的语义编辑？
RQ3如何设计一个可控的反向过程和编辑程序，在实现多样属性更改的同时保持图像质量？
RQ4Asyrp 的编辑是否在跨架构（DDPM++、iDDPM、ADM）和跨数据集（CelebA-HQ、AFHQ-dog、LSUN-church、LSUN-bedroom、MetFaces）时具有泛化性？
RQ5与微调或引导型方法相比，Asyrp 在用户研究与定量指标上如何？

主要发现

h-space 的编辑具有同质性：同样的 Δh_t 在不同图像上会产生相同的属性变化。
h-space 的编辑具有线性：线性放大 Δh_t 就线性放大属性变化，即使缩放为负也成立。
h-space 的编辑保持图像质量：Δh_t 的变化不会降低图像质量。
h-space 的编辑在时间维度上具有一致性：对于给定属性，Δh_t 在不同时步上大致保持一致。
Asyrp 能在未见领域和属性上实现编辑，而无需对模型微调，且适用于多种架构和数据集。
在用户研究中，Asyrp 在编辑的质量和自然度方面优于 DiffusionCLIP，包括对未见属性的处理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。