QUICK REVIEW

[论文解读] LayoutDiffuse: Adapting Foundational Diffusion Models for Layout-to-Image Generation

Jiaxin Cheng, Xiao Liang|arXiv (Cornell University)|Feb 16, 2023

Generative Adversarial Networks and Image Synthesis被引用 13

一句话总结

LayoutDiffuse 在预训练扩散模型上进行微调，采用新型的 layout-attention 适配器和任务自适应提示来执行布局条件的 layout-to-image 生成，在数据与训练效率方面达到最先进的结果。

ABSTRACT

Layout-to-image generation refers to the task of synthesizing photo-realistic images based on semantic layouts. In this paper, we propose LayoutDiffuse that adapts a foundational diffusion model pretrained on large-scale image or text-image datasets for layout-to-image generation. By adopting a novel neural adaptor based on layout attention and task-aware prompts, our method trains efficiently, generates images with both high perceptual quality and layout alignment, and needs less data. Experiments on three datasets show that our method significantly outperforms other 10 generative models based on GANs, VQ-VAE, and diffusion models.

研究动机与目标

将 layout-to-image 生成确立为一个可控、可扩展的任务，以利用预训练扩散模型。
开发一种数据高效的微调策略，使基础 DM 能适应布局条件。
引入两种适配器——layout attention 和任务自适应提示——以在不大规模重新训练的情况下实现有效条件控制。
在多个数据集（COCO Stuff、Visual Genome、CelebA-Mask）上展示出强感知质量和布局对齐。

提出的方法

采用在图像/文本数据上预训练的潜在扩散模型（LDM）骨干。
添加一个 layout attention 层作为残差块，以在实例内聚焦自注意力。
通过可学习的类别嵌入融入实例提示以标记对象区域。
引入附加在 QKV 注意力的 keys/values 上的任务自适应提示，以指示 layout-to-image 任务。
在微调开始时对适配器保持零初始化以保持预训练行为。
通过 CFG 和空条件化来实现对边界框和分割掩模条件化以实现引导。

实验结果

研究问题

RQ1是否可以通过轻量级适配器高效地将预训练扩散模型调整用于 layout-to-image 生成？
RQ2面向实例的 layout attention 和任务自适应提示是否相较于先前方法提高了布局保真度和图像质量？
RQ3该方法数据高效吗，在多个数据集上用更少的训练样本和训练轮数就能取得较强结果？
RQ4在边界框和基于掩模的布局上，LayoutDiffuse 相对于基于 GAN、基于 VQ-VAE 和基于扩散的基线表现如何？

主要发现

LayoutDiffuse 在 COCO Stuff 和 Visual Genome 上的边界框布局到图像生成中达到最先进的结果。
该方法获得更高的 CAS 和 Inception 分数，同时在图像质量与布局保真度方面获得更高的用户偏好。
LayoutDiffuse 还在 CelebA-Mask 的掩模到图像生成中表现出色，所需训练轮数少于竞争的扩散模型。
消融结果表明，实例感知的 layout attention 和任务自适应提示能提升 FID 和基于 YOLO 的布局可识别性，尤其在训练初期。
微调效率得到验证：相比基线，在显著更少的轮数和数据下实现相当或更优的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。