Skip to main content
QUICK REVIEW

[论文解读] Discrete Distribution Estimation under Local Privacy

Peter Kairouz, Keith Bonawitz|arXiv (Cornell University)|Feb 24, 2016
Privacy-Preserving Technologies in Data参考文献 14被引用 81
一句话总结

本文提出 O-RR,一种用于离散分布估计的增强型局部差分隐私机制,结合了基于群体的哈希与 k 元随机响应。实验证明,O-RR 在各种隐私制度和数据分布下均优于 Rappor 和 k-RR,尤其在数据分布偏斜和封闭字母表情况下表现更优,通过使用最小完美哈希函数降低碰撞风险,从而提升实用性。

ABSTRACT

The collection and analysis of user data drives improvements in the app and web ecosystems, but comes with risks to privacy. This paper examines discrete distribution estimation under local privacy, a setting wherein service providers can learn the distribution of a categorical statistic of interest without collecting the underlying data. We present new mechanisms, including hashed K-ary Randomized Response (KRR), that empirically meet or exceed the utility of existing mechanisms at all privacy levels. New theoretical results demonstrate the order-optimality of KRR and the existing RAPPOR mechanism at different privacy regimes.

研究动机与目标

  • 解决在局部差分隐私下估计离散分布的挑战,同时最小化效用损失并保护用户隐私。
  • 开发一种在高隐私和低隐私制度下均表现良好的机制,克服 Rappor 和 k-RR 等现有方法的局限性。
  • 通过哈希与群体划分,将 k-RR 扩展至开放字母表,使其适用于输入空间未知或庞大的实际系统。
  • 通过用最小完美哈希函数替代通用哈希函数,提升封闭字母表中的实用性,降低碰撞相关误差。
  • 提供一种统一且可调节参数的机制(O-RR),在给定样本量下,针对任意期望的隐私水平最大化实用性。

提出的方法

  • 提出 O-RR,一种通过基于群体的哈希与布隆过滤器将输入符号映射到有限输出空间,从而将 k-RR 扩展至开放字母表的机制。
  • 在封闭字母表中引入最小完美哈希函数以替代通用哈希函数,降低碰撞概率,提升估计准确性。
  • 采用投影估计器进行解码,通过将估计频率投影到概率单纯形,提升在偏斜分布上的实用性。
  • 使用最小二乘回归进行经验估计以实现解码,省略正则化与过滤阶段,专注于提升分布估计的实用性。
  • 通过在不同隐私水平(ε)、样本量(n)和字母表大小(S)下测量中位数 ℓ₁ 和 ℓ₂ 损失,评估性能,输入分布包括几何分布与均匀分布。
  • 在多种配置下对比 O-RR 与 Rappor 和 k-RR 的表现,包括不同 k、C(群体大小)、h(布隆过滤器大小)以及输入分布形状。

实验结果

研究问题

  • RQ1在不同隐私水平(ε)和数据分布下,O-RR 与 Rappor 和 k-RR 的实用性相比如何?
  • RQ2在各种隐私与样本量约束下,O-RR 的参数(k、C、h)的最优配置是什么,以最小化估计误差?
  • RQ3在封闭字母表中,使用最小完美哈希函数是否能显著提升 O-RR 的性能,相比通用哈希?
  • RQ4在偏斜输入分布下,投影估计器是否优于标准经验估计器?
  • RQ5在输入符号集未知的开放字母表设置下,O-RR 的表现如何?

主要发现

  • 在 S=256 且 n=10⁶ 的开放字母表设置下,O-RR 在所有隐私制度下均匹配或超过 Rappor 的实用性,尤其在中等隐私水平下表现更优。
  • 在封闭字母表中,O-RR 显著优于 k-RR 和 Rappor,通过使用最小完美哈希函数,在所有 ε 水平下均实现更高实用性。
  • O-RR 中的最优 k 随 ε 增大而增加,且 C ≥ 2 始终能提升性能,而 h=1 对基本哈希无额外增益。
  • 投影估计器在广泛隐私水平和样本量范围内提供最佳实用性,尤其在偏斜分布下表现突出。
  • 在低隐私制度下,k-RR 是阶最优的;在高隐私制度下,Rappor 是阶最优的,但两者在相反制度下均严格次优。
  • 在封闭字母表中,当 C=h=1 时,O-RR 退化为输出经置换的 k-RR,但因完美哈希降低了碰撞,仍优于 k-RR。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。