QUICK REVIEW
[论文解读] Differential Privacy By Sampling
Josh Joy, Mário Gerla|arXiv (Cornell University)|Jan 1, 2017
Privacy-Preserving Technologies in Data参考文献 17被引用 5
一句话总结
本文提出了一种新型的差分隐私机制——采样隐私(Sampling Privacy),通过使用随机采样而非传统的扰动方法,实现了恒定的绝对误差和更优的隐私保障。与随机响应不同,后者在总体规模增大时估计误差持续上升,而采样隐私在保持稳定准确度的同时减少了隐私泄露,在真实数据集上的评估中,其ε值相比基线方法最低可降低四倍。
ABSTRACT
In this paper we present the Sampling Privacy mechanism for privately releasing personal data. Sampling Privacy is a sampling based privacy mechanism that satisfies differential privacy.
研究动机与目标
- 为解决现有差分隐私机制(如随机响应)在可扩展性和准确性方面的局限性,这些机制在总体规模增大时估计误差持续上升。
- 开发一种分布式的、基于采样的方法,无论总体规模如何,均能保持恒定的绝对误差,从而实现可扩展的私有数据发布。
- 通过利用采样更有效地隐藏个体贡献,相比随机响应,降低隐私泄露(ε)。
- 提供一种实用且可部署的机制,满足ε-差分隐私,同时在真实应用场景(如健康数据和移动轨迹追踪)中保持数据可用性。
提出的方法
- 提出一种基于采样的隐私机制,其中每个数据拥有者独立地通过两次有偏的硬币抛掷来决定是否披露其真实答案,以控制真实披露的概率。
- 使用采样参数(例如0.45)来控制隐私与准确性的权衡,通过概率选择隐藏个体贡献。
- 使用隐私保证方程(公式29)正式量化ε-差分隐私,确保该机制对任何攻击者均具有可证明的隐私性。
- 通过聚合经差分隐私处理的响应,减去期望噪声,并按采样概率归一化,来估计真实计数,类似于随机响应,但具有更稳定的误差特性。
- 校准机制以确保在不同总体规模下保持恒定的绝对误差,而随机响应则因总体增大导致标准差持续增长。
- 在真实数据集(Gowalla签到数据、乳腺癌数据)上评估该机制,与随机响应及其他基线方法比较误差和隐私泄露。
实验结果
研究问题
- RQ1基于采样的机制是否能在总体规模增加时保持恒定的绝对误差,而传统随机响应则会因抽样方差导致误差迅速上升?
- RQ2基于采样的隐私化是否能在保持数据可用性的同时,相比随机响应减少隐私泄露(ε)?
- RQ3采样隐私机制在具有不同敏感属性分布的真实世界数据集上的性能如何扩展?
- RQ4该采样机制在不依赖集中式噪声注入的情况下,能在多大程度上隐藏个体贡献?
主要发现
- 采样隐私在数据拥有者从286人增至10,000人时,仍能保持恒定的绝对误差,而随机响应因抽样方差导致误差迅速上升。
- 在乳腺癌数据集中,采样隐私在相同条件下实现的隐私泄露(ε)比随机响应最高降低四倍,且对少数群体的估计误差显著降低。
- 该机制的隐私保证通过公式29正式量化,表明在使用相同采样参数时,其ε-差分隐私的边界比随机响应更紧。
- 在Gowalla签到数据上的评估确认,采样隐私在不同真实计数的地点均保持稳定的估计准确度,而随机响应在高精度设置下表现出高方差。
- 图3中的红圈标记表明,即使在优化随机响应参数的情况下,采样隐私在所有测试的第二次硬币抛掷概率值下均实现了更低的隐私泄露。
- 该方法通过将少数群体(如癌症患者或红肉食用者)的响应融入更大、更丰富的样本中,有效保护了其隐私,降低了再识别风险。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。