Skip to main content
QUICK REVIEW

[论文解读] Differentially Private Diffusion Models Generate Useful Synthetic Images

Sahra Ghalebikesabi, Leonard Berrada|arXiv (Cornell University)|Feb 27, 2023
Privacy-Preserving Technologies in Data被引用 15
一句话总结

这篇论文表明,通过私有微调的扩散模型,在结合预训练和增强策略下,能够生成高质量、保护隐私的合成图像,从而实现强大的下游分类性能和有效的模型选择。

ABSTRACT

The ability to generate privacy-preserving synthetic versions of sensitive image datasets could unlock numerous ML applications currently constrained by data availability. Due to their astonishing image generation quality, diffusion models are a prime candidate for generating high-quality synthetic data. However, recent studies have found that, by default, the outputs of some diffusion models do not preserve training data privacy. By privately fine-tuning ImageNet pre-trained diffusion models with more than 80M parameters, we obtain SOTA results on CIFAR-10 and Camelyon17 in terms of both FID and the accuracy of downstream classifiers trained on synthetic data. We decrease the SOTA FID on CIFAR-10 from 26.2 to 9.8, and increase the accuracy from 51.0% to 88.0%. On synthetic data from Camelyon17, we achieve a downstream accuracy of 91.1% which is close to the SOTA of 96.5% when training on the real data. We leverage the ability of generative models to create infinite amounts of data to maximise the downstream prediction performance, and further show how to use synthetic data for hyperparameter tuning. Our results demonstrate that diffusion models fine-tuned with differential privacy can produce useful and provably private synthetic data, even in applications with significant distribution shift between the pre-training and fine-tuning distributions.

研究动机与目标

  • 证明扩散模型可以在大规模下以差分隐私进行训练(80M+ 参数),以生成有用的合成图像。
  • 证明在公有数据(ImageNet)上的预训练加上带增强策略的 DP-SGD,在隐私约束下仍能获得高效用。
  • 评估 CIFAR-10 与 Camelyon17 的下游分类与模型选择的合成数据效用。
  • 提供实用指南(增强乘数、时间步采样偏置)以提升 DP 扩散模型的性能。

提出的方法

  • 在公开的 ImageNet 数据(ImageNet32)上对扩散模型进行预训练,以在 DP 微调前进行学习引导。
  • 应用带逐样本梯度裁剪和高斯噪声的 DP-SGD,启用隐私预算(ε,δ)。
  • 在图像和时间步上使用增强乘数,以在 DP 下放大有用的梯度信息。
  • 偏置扩散时间步采样,使训练更多聚焦在较难学习的中间时间步,提升内容学习。
  • 使用私有化优化器并调整超参数,在 CIFAR-10 与 Camelyon17 上对具有超过 80M 参数的扩散模型进行微调。
  • 通过在 DP 生成的图像上训练下游分类器并与真实数据基线进行比较来评估合成数据的有效性。
Figure 1: DP diffusion models are capable of producing high-quality images. More images can be found in Figures 5 , 6 , 7 .
Figure 1: DP diffusion models are capable of producing high-quality images. More images can be found in Figures 5 , 6 , 7 .

实验结果

研究问题

  • RQ1大型扩散模型是否能够在差分隐私下得到有效微调,从而产生有用的合成图像?
  • RQ2在分布移位下,ImageNet 预训练加 DP-SGD 是否能为具有挑战性的数据集(CIFAR-10、Camelyon17)提供高质量的合成数据?
  • RQ3哪些增强和采样策略最能提升 DP 扩散模型的性能?
  • RQ4在隐私约束下,如何将合成数据用于下游任务和超参数调优?

主要发现

  • 在 CIFAR-10 上,使用带 ImageNet 预训练的 DP 扩散模型将 FID 从 26.8(SOTA)降至 9.8。
  • 在 CIFAR-10 上,当使用 DP 合成数据训练下游分类器时,准确率从 51.0% 提升到 88.0%。
  • 在 Camelyon17 上,使用合成数据的下游准确率达到 91.1%,接近非私有 SOTA 的 96.5%(真实数据)。
  • 在 DP 扩散下,MNIST 实验达到 98.6% 的 top-1 准确率,超越了此前在此任务上的 DP 结果。
  • 使用更大规模的合成数据集和集成方法在不增加隐私成本的情况下进一步提高了下游准确率。
  • 在公有数据上的预训练加 DP-SGD 即使在分布移位下也能产生高质量的合成数据(ImageNet32 → CIFAR-10、ImageNet32 → Camelyon17)。
Figure 2: FID on CIFAR-10 for different privacy budgets. Our performance at $\epsilon=5$ beats the SOTA, when pre-training on ImageNet, for $\epsilon=\infty$ . Results for Harder et al. ( 2022 ) are taken from their paper.
Figure 2: FID on CIFAR-10 for different privacy budgets. Our performance at $\epsilon=5$ beats the SOTA, when pre-training on ImageNet, for $\epsilon=\infty$ . Results for Harder et al. ( 2022 ) are taken from their paper.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。