Skip to main content
QUICK REVIEW

[论文解读] On the Theory and Practice of Privacy-Preserving Bayesian Data Analysis

James R. Foulds, Joseph Geumlek|arXiv (Cornell University)|Mar 23, 2016
Privacy-Preserving Technologies in Data参考文献 22被引用 27
一句话总结

本文提出了一种基于拉普拉斯机制的隐私保护贝叶斯推断方法,其渐近相对效率与非私有后验推断相当,数据效率优于单后验样本(OPS)方法。该方法通过L1敏感度的拉普拉斯噪声对充分统计量进行隐私化处理,实现了MCMC采样中高效且可重用的私有计数,并在维基解密的军事记录数据上展示了良好的实用性能,实现了较强的隐私-效用权衡。

ABSTRACT

Bayesian inference has great promise for the privacy-preserving analysis of sensitive data, as posterior sampling automatically preserves differential privacy, an algorithmic notion of data privacy, under certain conditions (Dimitrakakis et al., 2014; Wang et al., 2015). While this one posterior sample (OPS) approach elegantly provides privacy "for free," it is data inefficient in the sense of asymptotic relative efficiency (ARE). We show that a simple alternative based on the Laplace mechanism, the workhorse of differential privacy, is as asymptotically efficient as non-private posterior inference, under general assumptions. This technique also has practical advantages including efficient use of the privacy budget for MCMC. We demonstrate the practicality of our approach on a time-series analysis of sensitive military records from the Afghanistan and Iraq wars disclosed by the Wikileaks organization.

研究动机与目标

  • 解决单后验样本(OPS)方法在隐私保护贝叶斯推断中数据效率低下的问题。
  • 开发一种实用且高效的OPS替代方法,同时保持强差分隐私保证。
  • 将隐私保护MCMC推断扩展至基于拉普拉斯机制的近似贝叶斯方法。
  • 在真实世界敏感数据上验证该方法,特别是伊拉克和阿富汗的维基解密军事记录。
  • 证明拉普拉斯机制方法在一般条件下可实现与非私有推断相当的渐近效率。

提出的方法

  • 该方法使用拉普拉斯机制对指数族模型中的充分统计量(如计数向量)进行隐私化处理,添加与统计量L1敏感度成比例的噪声。
  • 对于HMM,私有计数 $\hat{n}_{r,t,d,j}$ 在初始化时一次性计算并重复用于所有吉布斯采样步骤,确保计算效率。
  • 将拉普拉斯机制应用于转移概率和发射概率,使用私有计数更新潜在状态 $z_{r,t}$ 和参数 $\theta$ 的吉布斯更新方程。
  • 通过将充分统计量对单个数据点变化的敏感度限制在可控范围内,确保 $\epsilon$-差分隐私,每个计数向量的敏感度 $\triangle h = 2$。
  • 该方法支持通过MCMC进行近似推断,并在迭代间重用私有计数,降低隐私预算消耗。
  • 对于狄利克雷先验,使用私有计数在吉布斯更新中从截断狄利克雷分布中抽样,以保持隐私性和一致性。

实验结果

研究问题

  • RQ1基于拉普拉斯机制的方法是否能实现与非私有贝叶斯推断相当的渐近相对效率?
  • RQ2在实践中,拉普拉斯机制的数据效率与单后验样本(OPS)方法相比如何?
  • RQ3拉普拉斯机制能否在保持差分隐私的前提下,有效应用于基于MCMC的近似推断?
  • RQ4该方法在真实敏感数据集(如维基解密军事记录)上的实际效用如何?
  • RQ5该方法在一般指数族模型下是否能保持一致性和隐私保证?

主要发现

  • 拉普拉斯机制方法实现了与非私有后验推断相当的渐近相对效率(ARE),在数据效率方面显著优于OPS方法。
  • 通过在MCMC迭代中重用私有计数,该方法高效利用了隐私预算,降低了累积隐私成本。
  • 在维基解密军事记录数据集上,当 $\epsilon = 5$ 时,拉普拉斯机制实现了稳定的隐状态分配和参数估计,证明了其实际适用性。
  • OPS方法需要截断处理,且数据效率较低,保留数据上的对数似然结果显示出明显的性能差距。
  • 理论分析证实,拉普拉斯机制在弱条件下具有收敛性,包括对具有有界敏感度的指数族后验分布。
  • 实证结果表明,拉普拉斯机制能够生成可靠且具备隐私保护的HMM模型,其隐状态分配和参数估计与非私有基线结果高度一致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。