Skip to main content
QUICK REVIEW

[论文解读] Private Counting of Distinct and k-Occurring Items in Time Windows

Badih Ghazi, Ravi Kumar|arXiv (Cornell University)|Nov 21, 2022
Privacy-Preserving Technologies in Data被引用 3
一句话总结

本文提出了在事件级和条目级隐私保护下,针对时间窗口内不同项和k次出现项的差分隐私算法,实现了近乎紧致的误差界。该工作通过给出一个事件级差分隐私算法,实现了对大小为W的滑动窗口中不同项计数的多项式对数误差,从而解决了开放性问题。

ABSTRACT

In this work, we study the task of estimating the numbers of distinct and $k$-occurring items in a time window under the constraint of differential privacy (DP). We consider several variants depending on whether the queries are on general time windows (between times $t_1$ and $t_2$), or are restricted to being cumulative (between times $1$ and $t_2$), and depending on whether the DP neighboring relation is event-level or the more stringent item-level. We obtain nearly tight upper and lower bounds on the errors of DP algorithms for these problems. En route, we obtain an event-level DP algorithm for estimating, at each time step, the number of distinct items seen over the last $W$ updates with error polylogarithmic in $W$; this answers an open question of Bolot et al. (ICDT 2013).

研究动机与目标

  • 解决在动态数据流的时间窗口中,对不同项和k次出现项进行私密估计的挑战。
  • 分析在累积、固定窗口和时间窗口查询设置下,隐私(事件级与条目级DP)与效用(误差界)之间的权衡。
  • 通过为纯DP和近似DP在各种设置下提供近乎紧致的上下界,弥补先前研究的空白。
  • 解决Bolot等人(ICDT 2013)提出的关于滑动窗口中事件级DP用于不同项计数的开放性问题。
  • 探讨数据结构——单例(每时间步一个条目)与捆绑(每时间步多个条目)——对误差与隐私权衡的影响。

提出的方法

  • 设计了一种新颖的事件级差分隐私算法,用于估计大小为W的滑动窗口中不同项的数量,实现误差O(polylog W)。
  • 将时间窗口不同项计数问题转化为动态数据结构上的二维范围计数问题,利用私有范围查询技术。
  • 应用先进的差分隐私机制,如拉普拉斯机制和输出扰动,以确保在事件级和条目级定义下的隐私性。
  • 通过从单向边际问题的归约推导出匹配的下界,证明了上界在多项式对数因子内的最优性。
  • 采用分桶与聚合策略,从捆绑设置模拟单例设置,同时保持隐私并控制误差增长。
  • 通过归约到差分隐私中的已知难题(特别是单向边际查询问题),建立紧致的误差界。

实验结果

研究问题

  • RQ1在事件级和条目级DP下,时间窗口中不同项计数的差分隐私算法可实现的最优误差是多少?
  • RQ2在滑动窗口中,是否能为事件级DP实现关于W的多项式对数误差?
  • RQ3在单例与捆绑设置下,k次出现项计数的误差界如何随k、T以及隐私参数ǫ和δ变化?
  • RQ4在不同DP定义和查询类型下,这些问题的误差下限(基本限制)是什么?
  • RQ5在相同隐私约束下,累积、固定窗口与一般时间窗口查询的误差界有何不同?

主要发现

  • 提出了一种事件级DP算法,对大小为W的滑动窗口中不同项计数的误差为O(polylog W),解决了Bolot等人(ICDT 2013)提出的开放性问题。
  • 在条目级DP与单例设置下,时间窗口CntOcc≥k在纯DP下的误差界为O(√(T/ǫ) · log¹·⁵ T)。
  • 在近似DP下,相同设置的误差界为O(³√(T/ǫ²) · √(log(T/δ)) · log¹·⁵ T),与下界仅相差多项式对数因子。
  • 下界结果表明,任何ǫ-DP算法在单例设置下对时间窗口CntOcc≥k的误差均不能低于o(√(T/ǫk)),当T ≥ k/ǫ时成立。
  • 对于近似DP,下界为o(³√(T log(1/δ)/(ǫ²k))),与上界仅相差多项式对数因子。
  • 结果在所有查询类型(累积、固定窗口、时间窗口)、隐私模型(事件级、条目级)和数据模型(单例、捆绑)的组合下,建立了近乎紧致的误差界。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。