[论文解读] Local Differential Privacy for Evolving Data
本文提出了一种新颖的局部微差隐私机制,通过确保隐私损失仅取决于实际分布变化的次数而非周期性数据收集的次数,实现了对演变中人口统计的精确、长期追踪。通过利用群体特定的数据分布和自适应报告周期,该方法使误差随分布偏移而非时间增长,显著改善了苹果和谷歌等系统在实际部署中的隐私-效用权衡。
There are now several large scale deployments of differential privacy used to collect statistical information about users. However, these deployments periodically recollect the data and recompute the statistics using algorithms designed for a single use. As a result, these systems do not provide meaningful privacy guarantees over long time scales. Moreover, existing techniques to mitigate this effect do not apply in the "local model" of differential privacy that these systems use. In this paper, we introduce a new technique for local differential privacy that makes it possible to maintain up-to-date statistics over time, with privacy guarantees that degrade only in the number of changes in the underlying distribution rather than the number of collection periods. We use our technique for tracking a changing statistic in the setting where users are partitioned into an unknown collection of groups, and at every time period each user draws a single bit from a common (but changing) group-specific distribution. We also provide an application to frequency and heavy-hitter estimation.
研究动机与目标
- 解决局部模型中重复数据收集导致隐私保证随时间迅速下降的关键空白问题。
- 在用户本地随机化数据并发送至不可信服务器的局部微差隐私模型中,实现对演变中人口统计的精确、长期追踪。
- 通过使隐私损失依赖于底层数据分布的实际变化次数而非报告周期数量,减少周期性统计收集中的隐私损失和误差增长。
- 为工业部署(如苹果、谷歌)提供实用解决方案,这些系统频繁重新计算统计,但目前因简单重复收集而面临隐私退化问题。
- 开发一种技术,在保持强隐私保护的同时,实现对用户行为模式变化(如流行表情符号或搜索词的转变)的快速检测。
提出的方法
- 该方法将用户建模为属于未知数量的子群,每个子群具有随时间变化的、与群体相关的伯努利分布。
- 引入两阶段报告机制:用户通过随机响应发送扰动的位向量,服务器维护一个仅在检测到显著变化时才更新的全局估计。
- 关键创新在于使用全局更新触发器,仅在任一群体的分布发生变化时激活,从而最小化不必要的重新计算。
- 该算法利用浓度不等式和隐私预算会计,确保即使在多个周期中,每位用户的贡献仍保持在定义的隐私预算范围内。
- 采用分层估计策略,将子群级别的估计进行聚合,并通过连续估计之间的差异进行统计检验来检测变化。
- 该方法动态调整报告频率(周期长度),以在隐私、准确性和对用户行为真实变化的响应速度之间取得平衡。
实验结果
研究问题
- RQ1我们能否设计一种局部微差隐私机制,在尽管存在重复数据收集的情况下,仍能长期维持强隐私保证?
- RQ2当底层数据分布仅偶尔变化时,是否仍能在局部模型中实现对演变统计的准确追踪?
- RQ3我们能否将隐私损失与报告周期数量解耦,转而将其与实际分布变化的次数挂钩?
- RQ4如何在保护用户级别隐私的同时高效检测分布偏移,并最小化误差增长?
- RQ5在关于用户分组和数据演化的现实假设下,此类系统的理论准确度边界是什么?
主要发现
- 该方法确保总隐私损失仅随实际分布变化次数增长,而非报告周期数量,实现了随时间呈次线性增长的隐私保证。
- 在高概率下,真实分布估计的误差被限制在 $ 4(\text{log}(T)+2)√{\frac{2\ln(320n^{2}T/\delta)}{\ell}} + \sqrt{\frac{\ln(16ndT/\delta)}{n}} $ 以内,其中 $ \ell $ 为每周期的报告数量。
- 该算法保证任何用户在投票或估计中均不会超出其隐私预算,从而确保所有更新中均保持局部微差隐私。
- 全局更新机制在任意两个连续分布变化之间最多触发一次周期,确保响应迅速且计算不过度。
- 当实际变化次数较少时,准确度边界显著改善,使该方法在表情符号流行度或搜索趋势等缓慢演变的统计中极为有效。
- 理论分析证实,该方法在用户行为变化不频繁且数据以合适大小的周期收集时,实现了有利的隐私-准确度权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。