QUICK REVIEW

[论文解读] Privacy for Free: Posterior Sampling and Stochastic Gradient Monte Carlo

Yu-Xiang Wang, Stephen E. Fienberg|arXiv (Cornell University)|Feb 26, 2015

Privacy-Preserving Technologies in Data参考文献 43被引用 96

一句话总结

本文证明，在标准正则性条件下，贝叶斯推断中的后验抽样本质上天然具备差分隐私性，且无需额外机制；同时，诸如随机梯度Langevin动力学（SGLD）等随机梯度MCMC方法仅需极少算法修改即可保持$(\epsilon,\delta)$-差分隐私。核心贡献在于建立了贝叶斯推断与差分隐私之间的理论联系，实现了无需牺牲效用的私密、一致且计算高效的机器学习。

ABSTRACT

We consider the problem of Bayesian learning on sensitive datasets and present two simple but somewhat surprising results that connect Bayesian learning to "differential privacy:, a cryptographic approach to protect individual-level privacy while permiting database-level utility. Specifically, we show that that under standard assumptions, getting one single sample from a posterior distribution is differentially private "for free". We will see that estimator is statistically consistent, near optimal and computationally tractable whenever the Bayesian model of interest is consistent, optimal and tractable. Similarly but separately, we show that a recent line of works that use stochastic gradient for Hybrid Monte Carlo (HMC) sampling also preserve differentially privacy with minor or no modifications of the algorithmic procedure at all, these observations lead to an "anytime" algorithm for Bayesian learning under privacy constraint. We demonstrate that it performs much better than the state-of-the-art differential private methods on synthetic and real datasets.

研究动机与目标

建立贝叶斯后验抽样与差分隐私之间的理论联系。
证明在标准假设下，从后验分布中抽样本质上是$\epsilon$-差分私密的。
证明诸如SGLD等随机梯度MCMC方法在极少修改下仍能保持差分隐私。
开发一种高效、可任意时间运行的差分私密贝叶斯学习算法。
通过实证验证该方法相较于最先进差分私密经验风险最小化技术的性能。

提出的方法

证明在对数似然有界的后验分布中，任意单一样本均为$\epsilon$-差分私密的。
应用高斯机制与高级组合定理，建立随机梯度MCMC算法的隐私保障。
提出一种差分私密的随机梯度Fisher评分方法（DP-SGFS），包含私密梯度与协方差估计。
采用非球形高斯机制，以考虑梯度方向上的敏感性。
利用子采样与组合带来的隐私放大效应，以控制整体隐私损失。
在光滑性与有界梯度假设下推导隐私保障，包括样本协方差矩阵的敏感性界。

实验结果

研究问题

RQ1贝叶斯推断中的后验抽样是否能在不显式引入隐私机制的情况下提供差分隐私？
RQ2在何种条件下，单个后验样本是$\epsilon$-差分私密的？
RQ3诸如SGLD等随机梯度MCMC方法是否仅通过极少修改即可继承差分隐私？
RQ4能否在保持隐私与渐近效率的同时，实现Fisher信息的私密估计？
RQ5与最先进差分私密经验风险最小化方法相比，私密后验抽样的性能如何？

主要发现

在标准正则性条件下，具有有界对数似然的贝叶斯模型后验分布的单一样本是$\epsilon$-差分私密的。
当模型一致且渐近正态时，后验样本在统计上是一致且近似最优的。
当步长较小时，随机梯度Langevin动力学（SGLD）及其相关方法是$(\epsilon,\delta)$-差分私密的，且无需任何算法修改。
在有界梯度与光滑性假设下，所提出的DP-SGFS算法可实现$(2\epsilon, 2\delta)$-差分隐私。
实证结果表明，该方法在合成数据与真实数据集上均优于最先进差分私密ERM求解器。
即使通过随机梯度估计Fisher信息，隐私保障依然成立，且样本协方差矩阵的敏感性被限制在$\frac{7L^2}{n-1}$以内。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。