[论文解读] SVDiff: Compact Parameter Space for Diffusion Fine-Tuning
SVDiff 通过更新权重矩阵的奇异值来微调扩散模型,产生一个紧凑的参数空间,能够与完整微调相媲美甚至超越,并支持多目标主体生成和鲁棒的单图像编辑。它还引入 Cut-Mix-Unmix 数据增强,以提高对多个个性化概念的解耦。
Diffusion models have achieved remarkable success in text-to-image generation, enabling the creation of high-quality images from text prompts or other modalities. However, existing methods for customizing these models are limited by handling multiple personalized subjects and the risk of overfitting. Moreover, their large number of parameters is inefficient for model storage. In this paper, we propose a novel approach to address these limitations in existing text-to-image diffusion models for personalization. Our method involves fine-tuning the singular values of the weight matrices, leading to a compact and efficient parameter space that reduces the risk of overfitting and language drifting. We also propose a Cut-Mix-Unmix data-augmentation technique to enhance the quality of multi-subject image generation and a simple text-based image editing framework. Our proposed SVDiff method has a significantly smaller model size compared to existing methods (approximately 2,200 times fewer parameters compared with vanilla DreamBooth), making it more practical for real-world applications.
研究动机与目标
- 推动文本到图像扩散模型的高效个性化。
- 通过微调权重矩阵的奇异值(光谱移位)提出紧凑的参数空间。
- 引入数据增强(Cut-Mix-Unmix)以提升多主体学习。
- 提出基于文本的单图像编辑框架(CoSINE),利用光谱移位进行编辑。
- 在参数量显著少于完全微调的情况下展示出强劲性能。
提出的方法
- 对预训练扩散模型的权重矩阵进行 SVD,并保留 U 和 V,仅学习对角 Sigma_delta 中的光谱移位 delta。
- 将权重矩阵更新为 W_delta = U Diag(ReLU(sigma + delta)) V^T。
- 在有先验数据时,使用带权重的先验保持损失对更新进行正则化,λ 可调。
- 通过相加或插值将独立学习到的光谱移位组合成新模型,以实现风格迁移和多主体生成。
- 应用 Cut-Mix-Unmix 数据增强,明确教导模型解耦多种概念。
- 提供一个单图像编辑框架 CoSINE,使用光谱移位进行编辑,同时在适当时采用 DDIM 反演以改善对齐。
实验结果
研究问题
- RQ1紧凑的光谱移位参数空间能否在单一主体的扩散个性化中媲美完整微调?
- RQ2光谱移位微调是否能实现鲁棒的多主体生成并减少语言漂移?
- RQ3在学习多种概念时,Cut-Mix-Unmix 增强是否能改善解耦?
- RQ4是否可以用光谱移位实现一个基于文本的编辑流程(CoSINE),以实现可靠的单图像编辑?
- RQ5在扩散模型的性能和存储方面,光谱移位微调与 LoRA 相比如何?
主要发现
| 子集 | 存储(KB) | 备注 |
|---|---|---|
| UNet(所有 UNet 层) | 1404 | 完整 UNet 微调子集 |
| UNet-CA(Cross-Attn) | 194 | UNet 中的 Cross-attn 层 |
| UNet-CA-KV(K/V in Cross-Attn) | 84.8 | Cross-Attn 中的 W^K 与 W^V |
| UNet-1D(1-D 权重) | 430 | UNet 中的全部 1-D 权重 |
| UNet-2D(2-D 权重) | 617 | UNet 中的全部 2-D 权重 |
| UNet-4D(4-D 权重) | 355 | UNet 中的全部 4-D 权重 |
| 上采样块 | 789 | UNet 中的上采样块 |
| 下采样块 | 469 | UNet 中的下采样块 |
| 中间块 | 135 | UNet 中的中间块 |
| 上部 Cross-Attn | 106 | 上部块中的 Cross-Attn |
| 下部 Cross-Attn | 70.4 | 下部块中的 Cross-Attn |
| 中部 Cross-Attn | 17.7 | 中部块中的 Cross-Attn |
- SVDiff 比原生 DreamBooth 少大约 2,200× 参数,同时在单一主体生成上达到可比的结果。
- Cut-Mix-Unmix 增强通过减少相似概念之间的风格混合来改善多主体生成。
- 在多主体场景中,光谱移位微调通常比对全部权重微调更好地保持主体身份。
- 该方法能够实现一个简单的基于文本的图像编辑框架(CoSINE),在许多情况下缓解语言漂移并在 DDIM 反演下保持编辑。
- 与 LoRA 相比,SVDiff 产生更小的 delta 检查点,在保真度与真实感之间达到平衡,在某些配置下具有秩一存储的优势。
- Table 1 显示了 UNet 参数微调子集的存储,从 17.7 KB 到 1,404 KB,展示了光谱移位方法的紧凑性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。