Skip to main content
QUICK REVIEW

[论文解读] DP-MERF: Differentially Private Mean Embeddings with Random Features for Practical Privacy-Preserving Data Generation

Frederik Harder, Kamil Adamczewski|arXiv (Cornell University)|Feb 26, 2020
Privacy-Preserving Technologies in Data参考文献 38被引用 23
一句话总结

该论文提出 DP-MERF,一种基于核均值嵌入随机特征近似的差分隐私数据生成方法,可实现高效且高可用性的隐私保护生成。通过将数据相关项与数据无关项解耦,并利用解析有界的随机特征,DP-MERF 在隐私-效用权衡方面显著优于基于 GAN 的方法,即使在强隐私约束下(如 ϵ = 0.2)也优于后者,在 MNIST 和表格数据上表现更优。

ABSTRACT

We propose a differentially private data generation paradigm using random feature representations of kernel mean embeddings when comparing the distribution of true data with that of synthetic data. We exploit the random feature representations for two important benefits. First, we require a minimal privacy cost for training deep generative models. This is because unlike kernel-based distance metrics that require computing the kernel matrix on all pairs of true and synthetic data points, we can detach the data-dependent term from the term solely dependent on synthetic data. Hence, we need to perturb the data-dependent term only once and then use it repeatedly during the generator training. Second, we can obtain an analytic sensitivity of the kernel mean embedding as the random features are norm bounded by construction. This removes the necessity of hyper-parameter search for a clipping norm to handle the unknown sensitivity of a generator network. We provide several variants of our algorithm, differentially-private mean embeddings with random features (DP-MERF) to jointly generate labels and input features for datasets such as heterogeneous tabular data and image data. Our algorithm achieves drastically better privacy-utility trade-offs than existing methods when tested on several datasets.

研究动机与目标

  • 解决现有差分隐私数据生成方法存在的高隐私成本和有限效用问题。
  • 实现无需迭代隐私机制约束的实用且可扩展的隐私保护数据生成。
  • 通过解耦数据相关项,降低训练深度生成模型所需的隐私预算。
  • 通过范数有界的随机特征,为核均值嵌入提供可解析处理的敏感度上界。
  • 在强隐私保证下(例如 ϵ ≤ 0.2)提升合成数据在下游任务中的性能。

提出的方法

  • 使用随机傅里叶特征近似核均值嵌入,实现高效且差分隐私的计算。
  • 将需要隐私保护的数据相关均值嵌入与无需隐私成本的数据无关合成嵌入分离。
  • 对数据相关项应用一次差分隐私发布,该发布结果可在生成器训练过程中重复使用。
  • 采用基于随机特征范数有界性(上界为 1)推导出的解析敏感度上界,避免了梯度裁剪或超参数调优的需要。
  • 通过最小化受保护的真实数据嵌入与合成数据嵌入之间的 MMD,使用简单目标函数训练生成器。
  • 采用灵活的非 GAN 基架构,支持对异构表格和图像数据联合生成输入特征与标签。

实验结果

研究问题

  • RQ1核均值嵌入的随机特征近似能否实现更低隐私成本的更高效差分隐私数据生成?
  • RQ2在 MMD 目标函数中解耦数据相关项与数据无关项,是否允许单次、可重用的私有发布,从而降低整体隐私预算?
  • RQ3通过解析有界的随机特征,能否消除私有训练中对梯度裁剪和敏感度超参数调优的需求?
  • RQ4在图像和表格数据集上,DP-MERF 与基于 GAN 的私有数据生成方法相比,其隐私-效用权衡表现如何?
  • RQ5该方法在强隐私约束下(如 ϵ = 0.2)是否仍能保持高可用性,用于下游机器学习任务?

主要发现

  • 在 ϵ = 0.2 时,DP-MERF 在 MNIST 上优于所有基于 GAN 的基线方法,包括在更弱隐私设置下训练的模型(如 ϵ = 9.6)。
  • 在 FashionMNIST 上,DP-MERF 在 ϵ = 0.2 时达到 0.53 的测试准确率,显著优于 ϵ = 9.6 时的 DP-CGAN(0.39)和 DP-GAN(0.46)。
  • 在表格数据上,DP-MERF 在 12 个数据集上于相同隐私水平下均优于 DP-CGAN 和 DP-GAN,评估指标得分更高。
  • 由于解析有界的随机特征,该方法通过一次低敏感度的 DP 发布即可实现强隐私保证。
  • DP-MERF 生成的样本虽略显嘈杂,但保留了显著的数据特征,在下游分类任务中优于 GS-WGAN 和 DP-CGAN 生成的更高质量样本。
  • 在宫颈癌数据上,非私有的 MERF 基线模型性能优于真实数据,归因于生成样本方差带来的正则化效应,表明该方法具有良好的泛化优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。