Skip to main content
QUICK REVIEW

[论文解读] Differentially Private Releasing via Deep Generative Model (Technical Report)

Xinyang Zhang, Shouling Ji|arXiv (Cornell University)|Jan 5, 2018
Privacy-Preserving Technologies in Data被引用 40
一句话总结

dp-GAN 通过导出私有的 DP 训练的 GAN,训练一个差分隐私的深度生成模型以发布语义丰富的数据,从而在隐私保障下实现无限制的合成数据。

ABSTRACT

Privacy-preserving releasing of complex data (e.g., image, text, audio) represents a long-standing challenge for the data mining research community. Due to rich semantics of the data and lack of a priori knowledge about the analysis task, excessive sanitization is often necessary to ensure privacy, leading to significant loss of the data utility. In this paper, we present dp-GAN, a general private releasing framework for semantic-rich data. Instead of sanitizing and then releasing the data, the data curator publishes a deep generative model which is trained using the original data in a differentially private manner; with the generative model, the analyst is able to produce an unlimited amount of synthetic data for arbitrary analysis tasks. In contrast of alternative solutions, dp-GAN highlights a set of key features: (i) it provides theoretical privacy guarantee via enforcing the differential privacy principle; (ii) it retains desirable utility in the released model, enabling a variety of otherwise impossible analyses; and (iii) most importantly, it achieves practical training scalability and stability by employing multi-fold optimization strategies. Through extensive empirical evaluation on benchmark datasets and analyses, we validate the efficacy of dp-GAN.

研究动机与目标

  • 应对在不过度清洗的前提下,隐私保护地发布语义丰富数据的挑战。
  • 提出一个在差分隐私下训练生成模型以合成无限数据的框架。
  • 在保证隐私保障的同时,保留用于多种分析的数据效用。
  • 通过优化训练策略来提高私有化 GAN 的训练稳定性和可扩展性。

提出的方法

  • 通过在判别器训练中加入高斯 DP 噪声,将改进的 Wasserstein GAN 集成来构建 dp-GAN。
  • 使用梯度裁剪和高斯噪声对判别器进行 DP 训练,同时使生成器不直接暴露 DP 漏泄。
  • 使用带有矩记账和子采样的隐私会计来跟踪累计隐私损失。
  • 采用多轮优化:参数分组、自适应裁剪和热启动,以提高稳定性和效用。
  • 可选地利用少量公开数据来初始化并引导私有训练(热启动)。
  • 提供理论 DP 保证:在适当设置下,算法 Algorithm 1/Algorithm 3 是 (O(q ε √t), δ)-DP。

实验结果

研究问题

  • RQ1用差分隐私训练的深度生成模型能否为各种分析提供有用的合成数据?
  • RQ2如何在保持隐私和数据效用的前提下,将 DP 融入 GAN 训练?
  • RQ3哪些优化能够提高 DP-GAN 训练的稳定性和可扩展性?
  • RQ4隐私保护的合成数据是否在半监督分类等任务中保持效用?
  • RQ5在真实图像数据集上使用 dp-GAN 时,实际的隐私-效用权衡是什么?

主要发现

  • dp-GAN 在 MNIST、LSUN-U、LSUN-L 和 CelebA 数据集上,在 DP 约束下产生视觉上生动的合成图像。
  • 来自 dp-GAN 的合成数据在 Inception 指数上接近真实数据及无隐私约束的常规 GAN(在定性/定量分析中有报告)。
  • 该框架使半监督分类任务在保持效用的前提下成为可能。
  • 高级优化(权重聚类、自适应裁剪、热启动)在 DP 下显著改善了训练稳定性和收敛性。
  • 使用带子采样的矩记账隐私会计为训练过程提供 (ε, δ)-DP 保证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。