Skip to main content
QUICK REVIEW

[论文解读] Differentially Private Continual Releases of Streaming Frequency Moment Estimations

Alessandro Epasto, Jieming Mao|arXiv (Cornell University)|Jan 1, 2023
Privacy-Preserving Technologies in Data被引用 1
一句话总结

本论文提出了首个用于流式ℓp频率矩估计的差分隐私持续发布算法,实现了(1+η)-近似,附加误差为对数多项式级别,且空间复杂度接近最优。该方法利用一种新颖的平滑直方图框架并将其适配于差分隐私,从而实现了对基本流式问题(如不同元素数和频率矩)的私有持续分析与滑动窗口分析。

ABSTRACT

The streaming model of computation is a popular approach for working with large-scale data. In this setting, there is a stream of items and the goal is to compute the desired quantities (usually data statistics) while making a single pass through the stream and using as little space as possible. Motivated by the importance of data privacy, we develop differentially private streaming algorithms under the continual release setting, where the union of outputs of the algorithm at every timestamp must be differentially private. Specifically, we study the fundamental $\ell_p$ $(p\in [0,+\infty))$ frequency moment estimation problem under this setting, and give an $\varepsilon$-DP algorithm that achieves $(1+η)$-relative approximation $(\forall η\in(0,1))$ with $\mathrm{poly}\log(Tn)$ additive error and uses $\mathrm{poly}\log(Tn)\cdot \max(1, n^{1-2/p})$ space, where $T$ is the length of the stream and $n$ is the size of the universe of elements. Our space is near optimal up to poly-logarithmic factors even in the non-private setting. To obtain our results, we first reduce several primitives under the differentially private continual release model, such as counting distinct elements, heavy hitters and counting low frequency elements, to the simpler, counting/summing problems in the same setting. Based on these primitives, we develop a differentially private continual release level set estimation approach to address the $\ell_p$ frequency moment estimation problem. We also provide a simple extension of our results to the harder sliding window model, where the statistics must be maintained over the past $W$ data items.

研究动机与目标

  • 开发支持持续发布的差分隐私流算法,确保所有时间点输出的端到端隐私性。
  • 在持续发布模型下,解决差分隐私环境中的基本ℓp频率矩估计问题。
  • 将该框架扩展至更复杂的滑动窗口模型,其中仅保留近期数据。
  • 在保持强隐私与准确度保证的同时,实现接近最优的空间复杂度。
  • 为现实世界应用(如隐私沙盒)提供实用解决方案,其中私有且实时的数据分析至关重要。

提出的方法

  • 将复杂的私有流问题(如不同元素、高频项)约化为持续发布模型中的简单计数/求和问题。
  • 提出一种差分隐私平滑直方图框架,用于在滑动窗口上维护私有近似值。
  • 使用(ζ, β)-平滑函数建模随时间影响的衰减,实现重叠算法实例间的隐私组合。
  • 采用ε′-DP流算法作为基础组件,通过分层结构组合,实现在滑动窗口模型中的ε-DP。
  • 应用先进的隐私放大与组合定理,限制多个算法实例间端到端的隐私损失。
  • 结合理论保证与实际空间效率,实现T和|U|的对数多项式空间使用。

实验结果

研究问题

  • RQ1能否为ℓp频率矩估计设计差分隐私持续发布算法,实现(1+η)-近似与接近最优的空间复杂度?
  • RQ2如何将平滑直方图框架适配以确保在持续发布环境下的差分隐私?
  • RQ3在差分隐私下,滑动窗口模型中ℓp频率矩估计的空间-准确度-隐私权衡为何?
  • RQ4能否以最小开销将现有非私有流算法扩展至私有的持续发布模型?
  • RQ5在流式与滑动窗口设置下,差分隐私频率矩估计的空间效率理论极限是什么?

主要发现

  • 本文提出了一种ε-DP算法用于ℓp频率矩估计,实现(1+η)-相对近似与poly log(T n)的附加误差,空间使用为poly log(T n) · max(1, n1−2/p)。
  • 空间复杂度接近最优,与已知的非私有下界仅相差对数多项式因子。
  • 该框架通过约化为求和原 primitive,实现了对不同元素数、高频项及低频计数的私有持续发布。
  • 在滑动窗口模型中,算法对非负数求和实现了(1+η, O(log(T/(ηξ)) log(T)/(εη³)))-近似,空间使用为O(log(T)/η)。
  • 对于ℓ2频率矩,算法的误差界为η∥S∥²₂ + O((log(T/(ξη)) + log|U|)² log²(T)/(ε²η⁸) · log⁵(T) · log²(log(T/ξ)+log|U|)/(ξη)),空间使用为O((log(T/(ξη)) + log|U|)/η⁴ · log²(T))。
  • 对于一般ℓp频率矩(p > 0),算法实现了(1+η, (log(T|U|/ξ)/(ηε))^{O(p)})-近似,空间使用被限制在φ · (log(T|U|/ξ)/(ηε))^{O(p)},其中φ = max(1, |U|^{1−2/p})。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。