QUICK REVIEW

[论文解读] Locally Differentially Private Heavy Hitter Identification

Tianhao Wang, Ninghui Li|arXiv (Cornell University)|Aug 22, 2017

Privacy-Preserving Technologies in Data参考文献 21被引用 24

一句话总结

本文提出前缀扩展方法（PEM），一种用于在大域中识别重击者（heavy hitters）的局部差分隐私协议，通过将用户分组以报告逐步变长的值前缀。由于优化了分组大小并减少了分组数量，PEM 在准确率方面显著优于现有方法（如 MCM 和 SPM），尤其在域大小增加时表现更优，从而通过更优的噪声管理提升了实用性。

ABSTRACT

The notion of Local Differential Privacy (LDP) enables users to answer sensitive questions while preserving their privacy. The basic LDP frequent oracle protocol enables the aggregator to estimate the frequency of any value. But when the domain of input values is large, finding the most frequent values, also known as the heavy hitters, by estimating the frequencies of all possible values, is computationally infeasible. In this paper, we propose an LDP protocol for identifying heavy hitters. In our proposed protocol, which we call Prefix Extending Method (PEM), users are divided into groups, with each group reporting a prefix of her value. We analyze how to choose optimal parameters for the protocol and identify two design principles for designing LDP protocols with high utility. Experiments on both synthetic and real-world datasets demonstrate the advantage of our proposed protocol.

研究动机与目标

为解决在局部差分隐私（LDP）下，对大域中所有值的频率估计计算不可行时，识别重击者的挑战。
设计一种 LDP 协议，在保持高实用性的同时最小化计算成本并保护用户隐私。
识别可应用于重击者识别以外的 LDP 协议的一般设计原则。
通过在合成数据集和真实世界数据集上的实验，验证理论实用性分析。

提出的方法

用户被划分为 g 个组，每组报告长度递增的前缀 η，最后一组报告完整值。
聚合器在每一层迭代识别频繁前缀，基于前序步骤的结果剪枝候选集以缩小搜索空间。
协议将隐私预算分配给各组，每组仅回答一个问题，以避免隐私预算稀释。
通过权衡分组大小与候选数量的实用性分析，推导出最优参数，尤其是段长 η。
在每一层利用频率预言机协议（如 OLH/OUE）估计前缀频率并添加噪声。
理论实用性分析建模了分组大小（提升实用性）与候选数量（降低准确性）之间的权衡，结论为分组大小起主导作用。

实验结果

研究问题

RQ1在局部差分隐私下，如何高效地在大域中识别重击者，其中完整频率估计不可行？
RQ2在 LDP 协议中，分组大小与分组数量之间的最优权衡是什么，以最大化实用性？
RQ3前缀长度增量 η 的选择如何影响重击者检测的准确率与效率？
RQ4从本协议中得出的设计原则是否可推广至其他 LDP 问题？
RQ5在准确率与可扩展性方面，PEM 与现有方法（如 MCM 和 SPM）相比有何定量差异？

主要发现

由于分组数量减少且分组规模更大，PEM 在域大小增大时，显著优于 MCM 和 SPM，准确率更高。
实用性分析表明，更大的分组规模在整体上优于候选数量的增加，因此更少但更大的分组更为有效。
即使在 MCM 使用 √n 通道（已知改进）优化后，该协议仍优于现有方法。
实证验证表明，理论实用性预测与合成数据集和真实世界数据集上的实际性能一致。
识别出两个关键设计原则：(1) 将用户分组，每组仅回答一个问题；(2) 尽可能减少分组数量，以最大化分组规模和实用性。
即使在不利的底层分布下，该方法仍保持有效性，但性能仍取决于分布特性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。