[论文解读] Extracting Training Data from Diffusion Models
该论文表明最先进的扩散模型具备记忆能力,能够反复输出个别训练图像,并提出针对 Stable Diffusion、Imagen 以及在 CIFAR-10 上训练的模型的记忆数据提取攻击。
Image diffusion models such as DALL-E 2, Imagen, and Stable Diffusion have attracted significant attention due to their ability to generate high-quality synthetic images. In this work, we show that diffusion models memorize individual images from their training data and emit them at generation time. With a generate-and-filter pipeline, we extract over a thousand training examples from state-of-the-art models, ranging from photographs of individual people to trademarked company logos. We also train hundreds of diffusion models in various settings to analyze how different modeling and data decisions affect privacy. Overall, our results show that diffusion models are much less private than prior generative models such as GANs, and that mitigating these vulnerabilities may require new advances in privacy-preserving training.
研究动机与目标
- 在图像扩散模型中定义记忆和可提取性。
- 显示扩散模型记忆训练图像并能再生出近似副本。
- 分析模型规模、数据、数据增强和去重复对记忆性的影响。
- 评估隐私保护技术并识别隐私-效用权衡。
提出的方法
- 为扩散模型改编并定义 $(\ell,\delta)$-extraction 与 $(k,\ell,\delta)$-eidetic memorization。
- 进行两阶段的 generate-and-filter 攻击,以从扩散模型中提取记忆的训练图像。
- 使用基于 CLIP 的嵌入来识别近重复的训练图像并构建基于 clique 的 Memorization 检测器。
- 在 CIFAR-10 上训练多种扩散模型,以研究准确性、超参数、数据增强和去重复对隐私的影响。
- 对黑箱和白箱成员资格推断攻击进行应用,以评估隐私泄漏。
实验结果
研究问题
- RQ1扩散模型是否会记忆并反复输出训练图像?
- RQ2记忆性如何依赖于模型大小、训练数据和训练实践?
- RQ3从扩散模型中提取记忆数据的有效实际攻击是什么?
- RQ4现有的隐私增强技术是否在扩散模型上提供可接受的隐私-效用权衡?
- RQ5相比于 GAN,在记忆相关的隐私风险方面,扩散模型如何?
主要发现
- 扩散模型对 Stable Diffusion 与 Imagen 的训练图像进行了记忆并再现,且发现了近似的重复副本。
- 提取在目标模型上产生了超过 100 个记忆的训练样本,包括个人照片和商标,且许多图像未获得许可许可证。
- 记忆率与数据重复度相关;重复度越高,提取率越高,例如在定义的标准下识别出 93–109 张记忆图像。
- Imagen 相较于 Stable Diffusion 展现出更高的记忆风险,尤其在容量更大和训练迭代更多时。
- CIFAR-10 实验在较小的受控扩散模型中也揭示了显著的记忆性,提取的图像数量在 2,500–1,280 之间,取决于方法;即使在低重复设置下也存在一些记忆样本。
- 传统隐私工具(如现有的与差分隐私相关的技术)并未为扩散模型带来有利的隐私-效用权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。