[论文解读] Understanding and Mitigating Copying in Diffusion Models
本文分析文本条件扩散模型的记忆机制,显示不仅训练图像的重复,字幕多样性才是驱动复制的关键;提出训练和推理阶段的策略以缓解复制。
Images generated by diffusion models like Stable Diffusion are increasingly widespread. Recent works and even lawsuits have shown that these models are prone to replicating their training data, unbeknownst to the user. In this paper, we first analyze this memorization problem in text-to-image diffusion models. While it is widely believed that duplicated images in the training set are responsible for content replication at inference time, we observe that the text conditioning of the model plays a similarly important role. In fact, we see in our experiments that data replication often does not happen for unconditional models, while it is common in the text-conditional case. Motivated by our findings, we then propose several techniques for reducing data replication at both training and inference time by randomizing and augmenting image captions in the training set.
研究动机与目标
- 研究文本到图像扩散模型中数据记忆的原因,超越图像重复。
- 量化字幕条件在测试时对复制的影响。
- 开发并评估在训练和推断阶段降低复制的缓解策略。
提出的方法
- 以 Stable Diffusion v2.1 为基础,对较小数据集在不同重复设定下微调 U-Net。
- 使用数据集相似性和生成样本的 FID 来评估记忆。
- 改变文本条件风格(固定、类别字幕、BLIP 生成、随机)以研究条件对记忆的影响。
- 训练文本编码器(冻结 vs. 微调)以评估条件强度如何影响复制。
- 比较完全重复与部分图像-字幕重复,以了解字幕多样性如何影响记忆。
- 在训练与推断阶段提出并测试缓解策略(多字幕、嵌入中的噪声、随机字幕替换)。
实验结果
研究问题
- RQ1训练数据中的重复在多大程度上解释扩散模型中的复制?
- RQ2文本条件在测试时如何影响扩散模型的复制?
- RQ3在训练和/或推断期间增加字幕多样性是否能够在不牺牲图像质量的前提下减少记忆?
- RQ4哪些训练方案和数据设置在保持生成性能的同时最小化复制?
主要发现
- 数据重复会促成复制,但并不能完全解释测试时的复制,尤其是在文本条件模型中。
- 字幕多样性对记忆影响很大;更丰富或随机的字幕可能增加或减少记忆,取决于与图像内容的相关性。
- 部分重复(每张图像多字幕)相比完全重复显著缓解复制,且通常对 FID 的影响不大。
- 训练阶段的缓解措施(尤其是多字幕)在降低复制方面比推理阶段的措施更有效,对生成质量的影响很小。
- 若字幕非常具体,训练更长时间或使用更多数据可能增加记忆,突显模型质量与记忆之间的权衡。
- 图像复杂度和条件之间相互作用影响记忆;简单的图像往往更易记忆。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。