Skip to main content
QUICK REVIEW

[论文解读] Model-based Differentially Private Data Synthesis

Fang Liu|arXiv (Cornell University)|Jun 26, 2016
Privacy-Preserving Technologies in Data参考文献 47被引用 21
一句话总结

本文提出基于模型的差分隐私数据生成方法(ModiPS),这是一种贝叶斯框架,通过将差分隐私(DP)整合到微观数据生成中,实现对个体层面数据的强隐私保护。该方法在定义的隐私预算下确保隐私,同时通过生成多个合成数据集并采用方差组合规则来保持数据效用,且推导出的估计量具有理论一致性。

ABSTRACT

We propose model-based based differential private data synthesis (modips) in the Bayesian framework for releasing individual-level surrogate data sets for the original with strong privacy guarantee. The modips technique integrates differential privacy (DP) -- a concept discussed largely in the theoretical computer science community -- into microdata synthesis in statistical disclosure limitation. The modips guarantees individual privacy protection at a given privacy budget without making assumptions about data intruder's behaviors and knowledge. The privacy budget can be used as tuning parameters in the trade-off between privacy protection and original information preservation in synthesized surrogate data. The uncertainty from the sanitization and synthetic process in the modips can be accounted for by releasing multiple synthetic data sets and by applying the proposed variance combination rule. We also characterize the conditions for the consistency of estimators based on released synthetic data. The modips method provides a viable alternative to the currently limited choice set of microdata synthesis approaches in statistical disclosure limitation.

研究动机与目标

  • 解决统计披露限制领域中缺乏稳健、隐私保护型微观数据生成方法的问题。
  • 提供一种方法,确保个体隐私,且无需对数据入侵者知识或行为做出假设。
  • 通过隐私预算实现隐私保护与信息保留之间的可调和权衡。
  • 通过生成多个合成数据集,对数据净化与生成过程中的不确定性进行建模。
  • 建立基于发布合成数据推导出的估计量的理论一致性。

提出的方法

  • 将差分隐私(DP)整合到微观数据生成的贝叶斯框架中,以确保个体层面的隐私。
  • 将隐私预算作为调参参数,以控制隐私与数据效用之间的权衡。
  • 生成多个合成数据集,以捕捉数据净化与生成过程引入的不确定性。
  • 采用方差组合规则,以正确聚合多个合成数据集上的推断结果。
  • 使用贝叶斯分层模型表示数据不确定性,并支持后验推断。
  • 推导出基于合成数据的估计量与原始数据估计量一致的条件。

实验结果

研究问题

  • RQ1如何有效将差分隐私整合到微观数据生成中,以确保强个体隐私保障?
  • RQ2隐私预算对合成数据效用的影响如何,是否能有效保留原始统计特性?
  • RQ3如何正确量化并组合多个合成数据集上DP-合成过程引入的不确定性?
  • RQ4在何种条件下,基于合成数据的估计量与原始数据估计量一致?
  • RQ5所提出的方法能否作为现有微观数据生成技术在统计披露限制中的可行替代方案?

主要发现

  • ModiPS方法通过在指定隐私预算下确保差分隐私,提供强隐私保障,且不依赖对入侵者知识的假设。
  • 隐私预算实现了隐私保护与原始数据信息保留之间的灵活权衡。
  • 多个合成数据集有效捕捉了DP机制与生成过程引入的不确定性。
  • 所提出的方差组合规则通过正确聚合多个合成数据集的结果,支持有效的统计推断。
  • 建立了基于合成数据推导的估计量与原始数据估计量一致的理论条件。
  • ModiPS为统计披露限制背景下现有微观数据生成方法提供了一种实用且理论基础扎实的替代方案。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。