[论文解读] Practical Locally Private Heavy Hitters
本文提出了两种新的局部差分隐私重头对象(heavy hitters)算法——TreeHist 和 Bitstogram,它们在显著提升效率的同时,实现了近乎最优的最坏情况误差。两种算法分别将服务器和用户的运行时间降低至 Õ(n) 和 Õ(1),相较于先前需要 O(n^5/2) 和 O(n^3/2) 时间的工作,实现了巨大改进。作者实现了 TreeHist,并表明在有利条件下,其噪声水平优于 Google 的 RAPPOR。
We present new practical local differentially private heavy hitters algorithms achieving optimal or near-optimal worst-case error and running time -- TreeHist and Bitstogram. In both algorithms, server running time is $ ilde O(n)$ and user running time is $ ilde O(1)$, hence improving on the prior state-of-the-art result of Bassily and Smith [STOC 2015] requiring $O(n^{5/2})$ server time and $O(n^{3/2})$ user time. With a typically large number of participants in local algorithms ($n$ in the millions), this reduction in time complexity, in particular at the user side, is crucial for making locally private heavy hitters algorithms usable in practice. We implemented Algorithm TreeHist to verify our theoretical analysis and compared its performance with the performance of Google's RAPPOR code.
研究动机与目标
- 通过降低时间复杂度,尤其是用户端的复杂度,弥合局部差分隐私重头对象算法在实用性上的差距。
- 设计具有近乎最优最坏情况误差,并且通信、存储和计算开销最小的算法。
- 克服先前局部差分隐私算法计算成本过高的问题,从而限制了其在现实世界中的部署。
- 提供误差和服务器运行时间的可证明界,不同于 Apple 实现等启发式方法。
- 通过实现和与 RAPPOR 的基准测试,验证理论上的改进。
提出的方法
- TreeHist 使用分层树结构,通过递归哈希和纠错码来估计频率。
- Bitstogram 对域元素进行比特串编码,并在随机投影上应用频率预言机(Hashtogram)。
- 两种算法均使用经过仔细调校的噪声参数的随机响应,以确保局部差分隐私。
- 它们利用泊松和切尔诺夫集中不等式,分析在噪声下正确恢复重头对象的概率。
- 应用纠错码,以高概率从噪声哈希响应中重建原始值。
- 通过分组查询并最小化冗余计算,优化算法以在 Õ(n) 时间内处理数据。
实验结果
研究问题
- RQ1是否可以在保持近乎最优误差的同时,实现 O(n) 服务器和用户时间的局部私有重头对象计算?
- RQ2在现实条件下,TreeHist 与 RAPPOR 相比,在噪声水平和准确性方面表现如何?
- RQ3是否可以在不依赖启发式方法的前提下,在局部模型中实现误差和运行时间的可证明界?
- RQ4分层哈希和比特串编码对重头对象估计的准确性和效率有何影响?
- RQ5能否将先前局部算法的时间复杂度从 O(n^5/2) 和 O(n^3/2) 降低至近线性?
主要发现
- TreeHist 和 Bitstogram 实现了 Õ(n) 的服务器时间与 O(max(log n, log d)^2) 的用户时间,相较于 Bassily 和 Smith (2015) 的 O(n^5/2) 和 O(n^3/2) 复杂度有显著提升。
- Bitstogram 实现了最优的最坏情况误差,而 TreeHist 几乎最优,仅相差 √log n 因子。
- TreeHist 的实现表明,在 RAPPOR 有利的域大小范围内,其噪声水平低于 RAPPOR,表明其具有更高的准确性。
- 这些算法在保证 ϵ-局部差分隐私的同时,实现了有界误差下高概率恢复重头对象。
- 通过流式处理查询结果并提前丢弃低频候选,处理内存被减少至 Õ(√n)。
- 理论分析确认,以高概率可正确恢复所有频率 ≥264n^1.5/T 的重头对象。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。