[论文解读] Differentially Private Confidence Intervals
本文提出了五种用于计算正态分布数据均值置信区间的差分隐私算法,通过基于指数机制的分位数估计和拉普拉斯噪声实现。结果表明,其最佳算法SYMQ相较于先前工作将区间宽度减少了高达96%,在ε=0.1的强隐私保证下实现了接近公开数据的精度。
Confidence intervals for the population mean of normally distributed data are some of the most standard statistical outputs one might want from a database. In this work we give practical differentially private algorithms for this task. We provide five algorithms and then compare them to each other and to prior work. We give concrete, experimental analysis of their accuracy and find that our algorithms provide much more accurate confidence intervals than prior work. For example, in one setting (with ε = 0.1 and n = 2782) our algorithm yields an interval that is only 1/15th the size of the standard set by prior work.
研究动机与目标
- 为解决正态分布数据总体均值的差分隐私置信区间设计这一开放问题。
- 在现有理论方法缺乏实际可用性的情况下,提升私有置信区间的准确性。
- 评估假设数据分布特性(如正态性)是否能在不削弱隐私保证的前提下提升实用性。
- 开发并实验验证优于先前工作的新算法,兼顾区间宽度与覆盖率准确性。
- 提供公开可用、可投入生产环境的算法实现。
提出的方法
- 使用基于指数机制的算法(EXPQ)对分位数进行私有估计,特别是中位数,其在正态分布下可作为均值的稳健估计器。
- 采用对称分位数估计(SYMQ)构建置信区间,最大限度降低对数据范围[x_min, x_max]选择的敏感性。
- 对样本均值和样本方差应用拉普拉斯噪声以实现私有估计,噪声强度基于敏感性和隐私参数进行校准。
- 结合私有分位数估计与私有方差估计,在(ε,0)-差分隐私下计算高精度置信区间。
- 通过模拟验证方法,检验在多个α水平和隐私预算下的覆盖率概率。
- 在https://github.com/wxindu/dp-conf-int上实现并开源所有算法,以确保可复现性与实际应用。
实验结果
研究问题
- RQ1与先前理论工作相比,能否构建出显著提升准确性的正态分布数据均值差分隐私置信区间?
- RQ2在私有算法中利用分布假设(如正态性)是否能在不削弱隐私保证的前提下带来可测量的实用性提升?
- RQ3基于分位数的私有估计器与标准基于拉普拉斯机制的均值和方差估计器相比,在区间宽度和覆盖率方面表现如何?
- RQ4私有置信区间算法的性能在多大程度上对数据范围[x_min, x_max]的保守选择保持鲁棒?
- RQ5能否使私有置信区间在强隐私约束下足够实用且准确,以适用于真实世界统计分析?
主要发现
- 在ε=0.1且n=2782的条件下,所提出的SYMQ算法生成的置信区间宽度仅为先前工作所产生标准区间的1/15。
- 在ε=0.1时,最佳算法生成的区间宽度为公开区间宽度的2.43倍,而先前工作生成的区间宽度为公开区间的37.10倍——隐私成本降低了96%。
- 当数据服从正态分布时,EXPQ分位数估计算法在均值和标准差估计方面比基于拉普拉斯的方法更准确。
- SYMQ对[x_min, x_max]的保守范围选择具有高度鲁棒性,即使范围截断了部分数据分布,仍能保持优异性能。
- 在较小样本量(n < 100ε)下,NOISYMAD优于SYMQ,但对数据范围的设置要求更严格。
- 所有提出的算法在多个α水平下均实现了接近理想的覆盖率(约1−α),证实了在差分隐私下的统计有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。