Skip to main content
QUICK REVIEW

[论文解读] Synthetic Data -- A Privacy Mirage

Theresa Stadler, Bristena Oprisanu|arXiv (Cornell University)|Nov 13, 2020
Privacy-Preserving Technologies in Data参考文献 57被引用 22
一句话总结

本文提出了一套严格的评估框架,用于量化合成数据带来的隐私增益,表明即使采用差分隐私 GAN 等先进生成模型,在黑盒攻击下对重新识别和属性泄露的保护也极为有限。研究揭示,合成数据提供的实际隐私保护极为有限,部分记录尤其在模型复杂度增加时,其脆弱性显著高于其他记录。

ABSTRACT

Synthetic datasets produced by generative models are advertised as a silver-bullet solution to privacy-preserving data sharing. Claims about the privacy benefits of synthetic data, however, have not been supported by a rigorous privacy analysis. In this paper, we introduce an evaluation framework that enables data holders to (I) quantify the privacy gain of publishing a synthetic dataset instead of the raw data, and (II) compare the privacy properties of generative model training algorithms. We illustrate the utility of the framework and quantify privacy gain with respect to two concerns, the risk of re-identification via linkage and the risk of attribute disclosure, on synthetic data produced by a range of generative models, from simple independent histograms to differentially private GANs. We find that, across the board, synthetic data provides little privacy gain even under a black-box adversary with access to a single synthetic dataset only. Moreover, we observe that some target records receive substantially less protection than others and that the more complex the generative model, the more difficult it is to predict which targets will remain vulnerable to privacy attacks. Our findings highlight the need to re-consider whether synthetic data is an appropriate strategy to privacy-preserving data publishing.

研究动机与目标

  • 为解决合成数据缺乏严谨隐私分析的问题,而该技术被广泛宣传为一种隐私保护解决方案。
  • 开发一种系统性框架,用于量化发布合成数据集而非原始数据时的隐私增益。
  • 比较从简单直方图到差分隐私 GAN 等各类生成建模算法的隐私特性。
  • 探究合成数据是否真正能够保护敏感记录免受重新识别和属性泄露攻击。
  • 评估单个记录的脆弱性,尤其是在复杂生成模型下的风险,并识别暴露风险的模式。

提出的方法

  • 作者设计了一套评估框架,通过模拟仅能访问一个合成数据集的黑盒攻击者来衡量隐私增益。
  • 该框架评估了两类关键隐私威胁:通过记录关联实现的重新识别,以及通过推理攻击导致的属性泄露。
  • 该方法适用于多种生成模型,包括独立直方图、标准 GAN 和差分隐私 GAN。
  • 隐私风险通过诸如重新识别概率和属性泄露可能性等指标进行量化,覆盖多个目标记录。
  • 该框架支持对不同训练算法和模型架构的隐私特性进行对比分析。
  • 在真实世界数据集上进行实证评估,以在受控攻击场景下测量实际的隐私结果。

实验结果

研究问题

  • RQ1与发布原始数据相比,发布合成数据在多大程度上降低了通过关联攻击导致的重新识别风险?
  • RQ2不同生成建模技术下的属性泄露风险有何差异?
  • RQ3合成数据集中单个记录的隐私保护是否存在系统性差异?
  • RQ4模型复杂度如何影响隐私漏洞的可预测性和严重性?
  • RQ5在 GAN 训练中引入差分隐私是否能显著提升隐私保障,相比非私有基线方法?

主要发现

  • 即使面对仅能访问一个合成数据集的黑盒攻击者,合成数据提供的隐私增益也极为有限。
  • 在所有评估的生成模型中,包括差分隐私 GAN,重新识别和属性泄露风险依然很高。
  • 部分目标记录比其他记录显著更易受到隐私攻击,表明保护程度不均。
  • 随着生成模型复杂度的增加,预测哪些记录易受攻击变得显著困难。
  • 研究未发现充分证据表明,无论模型类型如何,合成数据都能可靠保护敏感信息。
  • 结果挑战了当前普遍认为合成数据是原始数据共享可行隐私保护替代方案的假设。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。