[论文解读] LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation
LayoutDiffusion 是一个单阶段扩散模型,通过 Layout Fusion Module 与对象感知交叉注意力将结构图像补丁与布局融合,实现对布局到图像生成的可控性,质量和可控性优于现有方法。
Recently, diffusion models have achieved great success in image synthesis. However, when it comes to the layout-to-image generation where an image often has a complex scene of multiple objects, how to make strong control over both the global layout map and each detailed object remains a challenging task. In this paper, we propose a diffusion model named LayoutDiffusion that can obtain higher generation quality and greater controllability than the previous works. To overcome the difficult multimodal fusion of image and layout, we propose to construct a structural image patch with region information and transform the patched image into a special layout to fuse with the normal layout in a unified form. Moreover, Layout Fusion Module (LFM) and Object-aware Cross Attention (OaCA) are proposed to model the relationship among multiple objects and designed to be object-aware and position-sensitive, allowing for precisely controlling the spatial related information. Extensive experiments show that our LayoutDiffusion outperforms the previous SOTA methods on FID, CAS by relatively 46.35%, 26.70% on COCO-stuff and 44.29%, 41.82% on VG. Code is available at https://github.com/ZGCTroy/LayoutDiffusion.
研究动机与目标
- 推动布局到图像生成在可控性与质量方面超越文本引导扩散方法的改进。
- 开发一种统一的多模态融合机制,将图像补丁视为布局样对象。
- 实现端到端的一阶段扩散,对布局进行条件化,并贯穿所有去噪步骤。
提出的方法
- 将布局表示为多对象嵌入,并通过 Layout Fusion Module (LFM) 将其与图像特征融合。
- 用区域信息构建结构性图像补丁,在统一的时空空间中统一图像与布局。
- 提出对象感知跨注意力(OaCA),在扩散过程中进行局部、对象敏感的条件化。
- 对布局条件扩散应用无分类器引导,以提高可控性而无需额外分类器。
- 使用 DPM-solver 的变体来优化扩散采样速度,实现更快的条件生成。

实验结果
研究问题
- RQ1如何以统一形式处理图像补丁与布局的多模态融合,以改善布局到图像的生成?
- RQ2LFM 与 OaCA 是否能在图像质量、多样性和对象级别的可控性方面优于现有方法?
- RQ3端到端的一阶段扩散在布局引导下,能否在标准基准上超越现有的基于 GAN 与扩散的方法?
主要发现
- LayoutDiffusion 在 COCO-Stuff 与 Visual Genome 上的生成质量和可控性均优于现有方法。
- 非结构性图像补丁的方法能够在统一空间中实现图像与布局的有效融合。
- LFM 提升了对布局中多个对象的全局与关系理解。
- OaCA 提供对象感知、位置敏感的跨注意力,提升输出中的对象放置与识别。
- 无分类器引导与加速采样(DPM-solver)在保持质量的同时加速了条件生成。
- 定量结果显示 LayoutDiffusion 在评估数据集上的 FID、IS、DS、CAS 与 YOLOScore 等指标上优于最先进方法(SOTA)。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。