[论文解读] On the Privacy Properties of Variants on the Sparse Vector Technique
本文批判性地分析了广义私有阈值测试(GPTT),这是一种稀疏向量技术的变体,据称可在不依赖正向回答数量的情况下提供强差分隐私保护。作者证明,由于先前隐私分析中的缺陷,GPTT并不满足ε-差分隐私,并且攻击者可利用一种新型重建攻击,以超过95%的准确率重建小计数单元格的值,从而表明GPTT在私有数据发布中并不安全。
The sparse vector technique is a powerful differentially private primitive that allows an analyst to check whether queries in a stream are greater or lesser than a threshold. This technique has a unique property -- the algorithm works by adding noise with a finite variance to the queries and the threshold, and guarantees privacy that only degrades with (a) the maximum sensitivity of any one query in stream, and (b) the number of positive answers output by the algorithm. Recent work has developed variants of this algorithm, which we call {\em generalized private threshold testing}, and are claimed to have privacy guarantees that do not depend on the number of positive or negative answers output by the algorithm. These algorithms result in a significant improvement in utility over the sparse vector technique for a given privacy budget, and have found applications in frequent itemset mining, feature selection in machine learning and generating synthetic data. In this paper we critically analyze the privacy properties of generalized private threshold testing. We show that generalized private threshold testing does not satisfy ε-differential privacy for any finite ε. We identify a subtle error in the privacy analysis of this technique in prior work. Moreover, we show an adversary can use generalized private threshold testing to recover counts from the datasets (especially small counts) exactly with high accuracy, and thus can result in individuals being reidentified. We demonstrate our attacks empirically on real datasets.
研究动机与目标
- 调查广义私有阈值测试(GPTT)这一近期提出的稀疏向量技术变体的隐私保障能力。
- 识别先前工作中所声称的GPTT隐私分析中的缺陷。
- 证明GPTT可被利用以高准确度重建敏感数据计数。
- 评估在真实世界私有数据发布系统中使用GPTT时,重新识别攻击的实际风险。
提出的方法
- 作者发现GPTT的隐私证明中存在一个关键错误,表明其输出对单行更改的不敏感性假设并不成立。
- 他们构建了相邻数据库的明确示例,其中GPTT的输出分布违反了ε-差分隐私条件。
- 设计了一种攻击算法,通过利用GPTT的输出,借助迭代划分和噪声计数估计来推断真实计数,从而重建单元格计数。
- 提出第二种攻击变体,无需事先了解数据集结构,通过拆分隐私预算,先推断划分,再估计每组的平均计数。
- 在真实数据集(Adult、MedicalCost、Income、HEPTH)上进行实验评估,使用不同的隐私预算(ε = 1.0、0.5、0.1),以测量重建准确度。
- 攻击使用尺度为1/ε₂的拉普拉斯噪声来估计每组的总和计数,然后将每组的平均计数四舍五入以恢复单个单元格计数。
实验结果
研究问题
- RQ1广义私有阈值测试(GPTT)是否对任意有限ε满足ε-差分隐私?
- RQ2先前工作中所呈现的GPTT隐私分析中存在何种具体缺陷?
- RQ3攻击者能否仅通过GPTT的输出重建数据集中单元格的真实计数?
- RQ4攻击者使用GPTT对小计数单元格(例如[0,5]范围内的计数)的重建准确度如何?
- RQ5隐私预算ε在多大程度上影响重建攻击的可行性与准确度?
主要发现
- 广义私有阈值测试(GPTT)对任意有限ε均不满足ε-差分隐私,与先前工作的声称相矛盾。
- GPTT隐私证明中存在一个微妙错误,导致其声称的隐私保障失效,因为其输出对相邻数据库中单行更改并非不敏感。
- 即使在不了解数据集结构的前提下,攻击者也能以高准确度重建超过95%的小计数单元格(计数在[0,5]范围内)。
- 在真实数据集上,当ε = 1.0时,攻击正确重建了超过90%的所有单元格,且在相同设置下对小计数单元格的重建准确率超过95%。
- 随着ε减小,重建准确度下降,主要原因是划分更粗糙以及计数估计中的噪声增加。
- 结果表明,依赖GPTT实现隐私保护的系统极易遭受重新识别攻击,尤其对低频数据更为严重。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。