[论文解读] Practical Differentially Private Top-$k$ Selection with Pay-what-you-get Composition
本文提出了适用于未知数据领域、无需事先了解数据域的实用差分隐私top-$k$选择算法。它引入了一种按需付费的组合框架,根据实际输出大小动态调整隐私预算,从而在无限制和受限敏感度模型下实现高效、用户级别的私有top-$k$查询,提升了实用性与可扩展性。
We study the problem of top-$k$ selection over a large domain universe subject to user-level differential privacy. Typically, the exponential mechanism or report noisy max are the algorithms used to solve this problem. However, these algorithms require querying the database for the count of each domain element. We focus on the setting where the data domain is unknown, which is different than the setting of frequent itemsets where an apriori type algorithm can help prune the space of domain elements to query. We design algorithms that ensures (approximate) $(ε,δ>0)$-differential privacy and only needs access to the true top-$\bar{k}$ elements from the data for any chosen $\bar{k} \geq k$. This is a highly desirable feature for making differential privacy practical, since the algorithms require no knowledge of the domain. We consider both the setting where a user's data can modify an arbitrary number of counts by at most 1, i.e. unrestricted sensitivity, and the setting where a user's data can modify at most some small, fixed number of counts by at most 1, i.e. restricted sensitivity. Additionally, we provide a pay-what-you-get privacy composition bound for our algorithms. That is, our algorithms might return fewer than $k$ elements when the top-$k$ elements are queried, but the overall privacy budget only decreases by the size of the outcome set.
研究动机与目标
- 在无需事先了解数据域或结构的情况下,实现大规模未知数据域中的差分隐私top-$k$选择。
- 支持用户级别隐私,其中单个用户可影响多个计数(无限制敏感度)或仅影响有限数量(受限敏感度)。
- 通过根据实际返回元素数量动态调整隐私预算,而非假设始终返回$k$个元素,最小化隐私预算的使用。
- 设计可无缝集成到现有数据流水线中的实用算法,无需数据预处理或结构假设。
- 改进top-$k$选择在差分隐私中的组合界,使在相同隐私预算下获得更好的实用性。
提出的方法
- 提出有限指数机制(LEM),仅从数据集中查询前$\bar{k}$个元素,其中$\bar{k} \geq k$,从而减少昂贵查询的数量。
- 引入基于数据的阈值策略,利用Gumbel噪声选择top-$k$元素,同时保持隐私性。
- 采用按需付费的隐私组合规则:仅根据实际输出集合的大小减少隐私预算,而非按$k$计算。
- 应用专为top-$k$选择场景设计的高级组合技术,优于标准组合界。
- 以新颖方式应用Gumbel噪声,确保在隐私约束下top-$k$选择的高概率正确性。
- 为无限制和受限敏感度设置提供框架,隐私预算缩放分别约为$\sqrt{k}$和$\approx \Delta$。
实验结果
研究问题
- RQ1是否可以在无需事先了解数据域的情况下,在大规模未知数据域中实现差分隐私的top-$k$选择?
- RQ2当返回元素数量少于$k$时,如何高效管理隐私预算?
- RQ3能否收紧top-$k$选择的组合定理,以在不牺牲隐私的前提下提升实用性?
- RQ4受限敏感度与无限制敏感度对top-$k$选择的隐私成本有何影响?
- RQ5能否设计一种实用且可扩展的算法,使其可无缝集成到现有数据系统中,而无需修改其流水线?
主要发现
- 所提算法确保$(\varepsilon, \delta)$-差分隐私且$\delta > 0$,使其无需完整领域知识即可运行。
- 该算法仅需访问任意$\bar{k} \geq k$的前$\bar{k}$个元素,适用于探索性数据分析。
- 按需付费组合规则确保隐私预算仅按实际输出大小减少,而非按$k$,从而提升实用性。
- 对于受限敏感度,隐私成本缩放为$\approx \Delta \varepsilon$;对于无限制敏感度,缩放为$\approx \sqrt{k} \varepsilon$,优于标准组合界。
- 在有限指数机制中使用Gumbel噪声,确保在有界误差下top-$k$选择的高概率正确性。
- 该框架可无缝集成到现有数据系统中,作为可扩展分析平台之上的私有层。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。