[论文解读] Differentially Private Mean Embeddings with Random Features (DP-MERF) for Simple & Practical Synthetic Data Generation.
本文提出 DP-MERF,一种基于核均值嵌入随机特征近似的差分隐私合成数据生成方法。通过解耦数据相关项并利用有界随机特征,该方法实现了较低的隐私成本和解析敏感度,相较于现有方法,在表格数据、联合特征-标签数据以及高维数据上实现了更优的隐私-效用权衡。
We present a differentially private data generation paradigm using random feature representations of kernel mean embeddings when comparing the distribution of true data with that of synthetic data. We exploit the random feature representations for two important benefits. First, we require a very low privacy cost for training deep generative models. This is because unlike kernel-based distance metrics that require computing the kernel matrix on all pairs of true and synthetic data points, we can detach the data-dependent term from the term solely dependent on synthetic data. Hence, we need to perturb the data-dependent term once-for-all and then use it until the end of the generator training. Second, we can obtain an analytic sensitivity of the kernel mean embedding as the random features are norm bounded by construction. This removes the necessity of hyperparameter search for a clipping norm to handle the unknown sensitivity of an encoder network when dealing with high-dimensional data. We provide several variants of our algorithm, differentially private mean embeddings with random features (DP-MERF) to generate (a) heterogeneous tabular data, (b) input features and corresponding labels jointly; and (c) high-dimensional data. Our algorithm achieves better privacy-utility trade-offs than existing methods tested on several datasets.
研究动机与目标
- 解决高维数据差分隐私生成建模中的高隐私成本与敏感度估计挑战。
- 通过有界随机特征确保解析敏感度,减少深度生成模型中裁剪范数超参数调优的需求。
- 在异构表格数据、联合特征-标签数据以及高维数据等多种数据类型上,实现高效且实用的差分隐私合成数据生成。
- 通过在核距离计算中解耦数据相关项,实现优于现有方法的隐私-效用权衡。
提出的方法
- 使用随机特征近似核均值嵌入,替代完整的核矩阵计算,降低计算与隐私开销。
- 在核距离度量中将数据相关项与仅合成数据项解耦,使整个训练过程中仅需对数据相关项进行一次扰动。
- 利用随机特征的范数有界性,推导出解析敏感度,消除对裁剪范数超参数搜索的需求。
- 使用一次噪声注入对数据相关组件的差分隐私距离度量训练深度生成模型。
- 设计三种算法变体:一种用于异构表格数据,一种用于联合特征-标签生成,一种用于高维数据。
- 利用随机特征表示,在保持隐私保证的同时,实现可扩展且精确的分布匹配。
实验结果
研究问题
- RQ1核均值嵌入的随机特征近似是否能降低差分隐私生成建模中的隐私成本?
- RQ2在距离度量中解耦数据相关项与仅合成数据项,是否能实现一次噪声注入,从而提升训练效率?
- RQ3有界随机特征是否能提供解析敏感度,从而在高维设置下消除对裁剪范数超参数调优的需求?
- RQ4在多种数据类型下,DP-MERF 与现有方法相比在隐私-效用权衡方面表现如何?
- RQ5DP-MERF 是否能在强隐私保证下,有效生成高质量的异构表格数据、联合特征-标签数据以及高维数据的合成数据?
主要发现
- DP-MERF 通过解耦数据相关项并一次性扰动,显著降低了隐私成本。
- 使用范数有界的随机特征可实现解析敏感度计算,消除了在高维数据中对启发式裁剪范数选择的需求。
- 该方法在多个数据集(包括表格数据与高维数据)上展现出优于基线方法的隐私-效用权衡。
- 该算法在三种数据类型上均有效:异构表格数据、联合特征-标签数据以及高维数据。
- 该方法在保持强隐私保证的同时,通过高效的随机特征近似,实现了深度生成模型的可扩展训练。
- 实验结果表明,与现有差分隐私生成模型相比,DP-MERF 在分布匹配和下游效用评估方面性能更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。