[论文解读] Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models
Uni-ControlNet引入一个统一的双适配器框架,以在预训练的文本到图像扩散模型中实现多种局部与全局控制,达到可组合的控制并降低微调成本。它将局部与全局控制分离,并在多样化条件下展示出强控性与生成质量。
Text-to-Image diffusion models have made tremendous progress over the past two years, enabling the generation of highly realistic images based on open-domain text descriptions. However, despite their success, text descriptions often struggle to adequately convey detailed controls, even when composed of long and complex texts. Moreover, recent studies have also shown that these models face challenges in understanding such complex texts and generating the corresponding images. Therefore, there is a growing need to enable more control modes beyond text description. In this paper, we introduce Uni-ControlNet, a unified framework that allows for the simultaneous utilization of different local controls (e.g., edge maps, depth map, segmentation masks) and global controls (e.g., CLIP image embeddings) in a flexible and composable manner within one single model. Unlike existing methods, Uni-ControlNet only requires the fine-tuning of two additional adapters upon frozen pre-trained text-to-image diffusion models, eliminating the huge cost of training from scratch. Moreover, thanks to some dedicated adapter designs, Uni-ControlNet only necessitates a constant number (i.e., 2) of adapters, regardless of the number of local or global controls used. This not only reduces the fine-tuning costs and model size, making it more suitable for real-world deployment, but also facilitate composability of different conditions. Through both quantitative and qualitative comparisons, Uni-ControlNet demonstrates its superiority over existing methods in terms of controllability, generation quality and composability. Code is available at \url{https://github.com/ShihaoZhaoZSH/Uni-ControlNet}.
研究动机与目标
- 激发为 T2I 扩散模型在文本提示之外加入多样化、细粒度的控制。
- 设计一个统一、轻量级的基于适配器的框架,在一个模型中支持多种局部和全局控制。
- 通过仅使用两个适配器来降低微调成本和模型规模,无论控制数量多少。
- 通过允许局部和全局适配器独立训练并在推理时组合来实现可组合控制。
- 通过定量和定性实验展示在可控性与图像保真度方面优于现有方法。
提出的方法
- 将控制分为局部控制(例如边缘图、深度、分割)和全局控制(例如 CLIP 图像嵌入)。
- 引入一个共享的局部条件编码器,通过 Feature Denormalization (FDN) 模块进行多尺度条件注入,以在多个分辨率上调制噪声特征。
- 实现一个共享的全局条件编码器,将全局信号转换为扩展文本提示并在所有层通过跨注意力进行交互的标记。
- 仅在冻结的预训练扩散模型上微调两个适配器(一个局部一个全局),实现可组合的条件。
- 分别训练这两个适配器,采用 dropout 策略以提升鲁棒性,并在推理阶段实现最终的可组合性,无需联合微调。
- 在推理阶段合并适配器,使用带有分类器自由引导的 DDIM 采样;根据是否存在文本提示来调整全局权重 lambda。
实验结果
研究问题
- RQ1两适配器架构是否能够在一个单一的预训练 T2I 扩散模型中支持多种局部与全局控制?
- RQ2将局部和全局适配器分离是否比按条件的适配器更能提升可控性和可组合性?
- RQ3在多样化控制下注入局部与全局条件信息以保持生成保真度的有效策略是什么?
主要发现
- Uni-ControlNet 在仅使用两种适配器的情况下实现了可控性与保真度的提升,无论条件数量多少。
- 所提局部控制适配器使用带 FDN 的多尺度注入来调制噪声特征,从而更好地与局部条件对齐。
- 全局控制适配器用来自基于 CLIP 的编码器的全局标记扩展提示,通过跨注意力实现有效的全局条件。
- 分别训练的局部和全局适配器在推理时可以组合,无需额外的联合微调,从而实现灵活的条件混合。
- 定量结果在 COCO2017 上与 ControlNet、GLIGEN 和 T2I-Adapter 相比,在多个控制下呈现更有利的 FID 分数,且可控性指标具有竞争力。
- 定性结果表明多条件(局部+全局)协同整合的连贯性,以及在单一及多条件情景下的稳健表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。