[论文解读] Average-Case Averages: Private Algorithms for Smooth Sensitivity and Mean Estimation
本文提出了一类实例相关的噪声分布——拉普拉斯对数正态分布、反 sinh 正态分布和均匀对数正态分布——并将其缩放以适应平滑敏感度,用于私有均值估计。通过结合截尾均值估计器与这些噪声机制,该方法在集中式差分隐私下显著降低了方差,对于 n=1001 个样本,过度误差仅相当于非私有方差的 10%。
The simplest and most widely applied method for guaranteeing differential privacy is to add instance-independent noise to a statistic of interest that is scaled to its global sensitivity. However, global sensitivity is a worst-case notion that is often too conservative for realized dataset instances. We provide methods for scaling noise in an instance-dependent way and demonstrate that they provide greater accuracy under average-case distributional assumptions. Specifically, we consider the basic problem of privately estimating the mean of a real distribution from i.i.d.~samples. The standard empirical mean estimator can have arbitrarily-high global sensitivity. We propose the trimmed mean estimator, which interpolates between the mean and the median, as a way of attaining much lower sensitivity on average while losing very little in terms of statistical accuracy. To privately estimate the trimmed mean, we revisit the smooth sensitivity framework of Nissim, Raskhodnikova, and Smith (STOC 2007), which provides a framework for using instance-dependent sensitivity. We propose three new additive noise distributions which provide concentrated differential privacy when scaled to smooth sensitivity. We provide theoretical and experimental evidence showing that our noise distributions compare favorably to others in the literature, in particular, when applied to the mean estimation problem.
研究动机与目标
- 解决在独立同分布数据下,差分隐私中全局敏感度对均值估计的过度保守问题。
- 通过利用平滑敏感度实现实例相关的敏感度,降低私有均值估计中的噪声方差。
- 设计新的噪声分布,支持集中式差分隐私,同时保持低敏感度和强尾部行为。
- 证明截尾均值估计器在统计精度与隐私敏感度之间提供了有利的权衡。
- 提供理论与实证证据,表明实例相关的噪声优于标准拉普拉斯/高斯机制,在平均情况设置下表现更优。
提出的方法
- 引入截尾均值估计器作为独立同分布数据(具有无界支持)下对经验均值的鲁棒、低敏感度替代方法。
- 重新审视 Nissim、Raskhodnikova 与 Smith(2007)提出的平滑敏感度框架,以实现实例相关的噪声校准。
- 提出三种新的加性噪声分布——拉普拉斯对数正态分布、反 sinh 正态分布和均匀对数正态分布——这些分布经缩放至平滑敏感度后,可满足集中式差分隐私。
- 基于平滑敏感度框架推导隐私保证的解析边界,并证明新噪声分布满足集中式差分隐私。
- 采用数值优化方法,为每种噪声分布选择在不同数据集大小和隐私水平下的最优平滑参数(t)与形状参数(σ)。
- 在等效隐私松弛条件下(如 (ε,0)、ε²/2-CDP、(ε,10⁻⁶)),以方差为主要指标,比较不同噪声分布的性能。
实验结果
研究问题
- RQ1通过平滑敏感度实现的实例相关噪声缩放,是否能相比基于全局敏感度的方法,降低私有均值估计中的方差?
- RQ2在集中式差分隐私下,新噪声分布——拉普拉斯对数正态分布、反 sinh 正态分布和均匀对数正态分布——在隐私保护与方差方面表现如何?
- RQ3截尾均值估计器在多大程度上改善了私有均值估计中统计精度与敏感度之间的权衡?
- RQ4在等效隐私松弛条件下,所提方法与现有机制(如拉普拉斯、高斯与学生 t 分布)相比,性能如何?
- RQ5修剪程度与平滑参数对私有均值估计器的方差与隐私有何影响?
主要发现
- 当 n=201 且 ε=1 时,所提方法实现的私有均值估计方差仅比非私有经验均值高两倍。
- 当 n=1001 时,由隐私引入的额外方差被降低至非私有方差的仅 10%,表明实现了近乎最优的准确性。
- 拉普拉斯对数正态分布噪声在所有测试机制中实现了最低方差,紧随其后的是学生 t 分布。
- 由于重尾行为和次优的敏感度缩放,均匀对数正态分布表现较差。
- 当数据偏离正态分布时,截尾均值估计器比经验均值更有效地降低方差,从而增强了鲁棒性。
- 所提噪声分布具有有限矩和准多项式尾部,满足集中式差分隐私,实现了隐私强度与尾部行为之间的有利平衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。