[论文解读] MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation
MultiDiffusion 引入一个统一的、无需训练的生成过程,融合来自预训练模型的多条扩散路径,以实现可控的图像生成(全景图、基于区域的提示),无需微调。
Recent advances in text-to-image generation with diffusion models present transformative capabilities in image quality. However, user controllability of the generated image, and fast adaptation to new tasks still remains an open challenge, currently mostly addressed by costly and long re-training and fine-tuning or ad-hoc adaptations to specific image generation tasks. In this work, we present MultiDiffusion, a unified framework that enables versatile and controllable image generation, using a pre-trained text-to-image diffusion model, without any further training or finetuning. At the center of our approach is a new generation process, based on an optimization task that binds together multiple diffusion generation processes with a shared set of parameters or constraints. We show that MultiDiffusion can be readily applied to generate high quality and diverse images that adhere to user-provided controls, such as desired aspect ratio (e.g., panorama), and spatial guiding signals, ranging from tight segmentation masks to bounding boxes. Project webpage: https://multidiffusion.github.io
研究动机与目标
- 在不进行高成本的重新训练或微调的前提下,激发可控的文本到图像生成。
- 提出一个统一框架,通过共享约束将多条扩散路径绑定在一起。
- 展示在纵横比扩展(全景)和区域提示方面的适用性。
- 表明该方法在利用固定参考模型的同时能产生高质量、连贯的输出。
提出的方法
- 定义一个在目标图像空间 J 上运行、并与预训练扩散模型 Phi 共享参数的 MultiDiffusion 过程 Psi。
- 构建一个最小二乘跟随扩散路径(FTD)目标,以协调多个区域/条件去噪步骤:L_FTD(J|J_t,z)=sum_i || W_i ⊗ [F_i(J)−Phi(I_t^i|y_i)] ||^2。
- 当 F_i 为简单的像素裁剪时,获得 Psi 的闭式最小二乘解,便于每一步的高效更新。
- 引入映射 F_i: J→I 和 lambda_i: Z→Y,将目标区域和条件与参考模型连接起来。
- 在基于区域的生成过程中应用自举和区域掩模,以提高对严格区域约束的保真度。
实验结果
研究问题
- RQ1是否可以在不进行训练或微调的情况下,将一个预训练的扩散模型引导到新的生成任务?
- RQ2如何把对应于不同区域或纵横比的多条扩散路径协调为一个单一、连贯的生成步骤?
- RQ3在目标图像空间与参考模型空间之间有哪些有效映射,以实现可控生成?
- RQ4与针对全景和区域提示的任务特定基线相比,该方法是否能达到竞争力或更高的质量和连贯性?
主要发现
| 方法 | FID | CLIP分数 | CLIP美学 |
|---|---|---|---|
| Stable Diffusion | 6.05±3.1 | 0.27 | 6.36 |
| SI | 45.5±14.5 | 0.26 | 5.76 |
| BLD | 18.4±7.4 | 0.27 | 6.02 |
| Ours | 10.3±4.8 | 0.27 | 6.36 |
- MultiDiffusion 通过跨裁剪融合扩散路径来实现高质量、连贯的全景图,而不是将它们独立处理。
- 使用掩模和粗略提示的基于区域的生成在 COCO 数据集上的 IoU 比 SI 和 BLD 基线更好(并有自举改进)。
- 全景实验显示在 FID、CLIP-score 和 CLIP-aesthetic 上优于基线,表明更好的分布相似性和感知质量。
- 该方法在无需对参考模型进行任何训练或微调的情况下,在任务上实现了接近最先进水平的性能。
- 自举提高对紧密掩模的保真度,在 COCO 评价中获得更高的 IoU 分数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。