QUICK REVIEW

[论文解读] Separating Local & Shuffled Differential Privacy via Histograms

Victor Balcer, Albert Cheu|arXiv (Cornell University)|Jan 1, 2020

Privacy-Preserving Technologies in Data参考文献 20被引用 10

一句话总结

本文提出了一种基于随机化响应与校准噪声的新混淆协议，用于在数据域大小无关的条件下估计直方图，展示了洗牌模型与本地差分隐私模型之间在样本复杂度上存在任意大的分离。关键贡献在于：在洗牌模型中实现了同时误差为 O(log(1/δ)/(ε²n))，而本地模型中为 Ω(√log d/(ε√n))，并证明了纯差分隐私会使洗牌模型退化为本地模型，尤其在单消息协议中成立。

ABSTRACT

Recent work in differential privacy has highlighted the shuffled model as a promising avenue to compute accurate statistics while keeping raw data in users' hands. We present a protocol in this model that estimates histograms with error independent of the domain size. This implies an arbitrarily large gap in sample complexity between the shuffled and local models. On the other hand, we show that the models are equivalent when we impose the constraints of pure differential privacy and single-message randomizers.

研究动机与目标

研究洗牌模型与本地模型在差分隐私中的精度差距。
设计一种在洗牌模型中实现与域大小无关误差的直方图估计协议。
在本地模型与洗牌模型之间建立样本复杂度的定量分离。
探索在纯差分隐私约束下洗牌模型的极限。
证明单消息洗牌协议中的纯差分隐私等价于本地协议。

提出的方法

提出一种基于新混淆机制的直方图估计协议，结合随机化响应与校准噪声。
采用预混淆机制对用户消息进行匿名化，以实现更强的隐私保障。
通过分析消息分布的统计特性，对所有直方图桶的误差进行联合界约束。
利用指针追踪与多参与方便程跳跃问题的归约，建立样本复杂度的下界。
证明在纯差分隐私下，任何单消息洗牌协议均可被本地协议以相同隐私与精度特性模拟。
利用洗牌放大引理与统计距离论证，推导出隐私与精度的边界。

实验结果

研究问题

RQ1在洗牌模型中，直方图估计能否实现与数据域大小 d 无关的误差？
RQ2在分布估计任务中，本地模型与洗牌模型之间的样本复杂度差距的量化程度如何？
RQ3在精度与样本效率方面，洗牌模型是否显著优于本地模型？
RQ4在何种条件下，洗牌模型在隐私与精度方面会退化为本地模型？
RQ5单消息洗牌协议中的纯差分隐私能否在不损失隐私或精度的前提下被本地协议模拟？

主要发现

所提协议在洗牌模型中实现了与域大小 d 无关的同步误差 O(log(1/δ)/(ε²n))。
当 log(1/δ) = o(log d) 时，该误差界严格优于以往工作，尤其在浏览器主页等大规模域场景中表现显著。
洗牌模型中的样本复杂度可独立于问题参数，而本地模型中的样本复杂度则随参数增长，从而实现任意大的分离。
在纯差分隐私下，每个单消息洗牌协议均可被本地协议以相同隐私与样本复杂度保证进行模拟。
论文构造了反例，表明多消息洗牌协议即使其随机化器本身不满足 ε-差分隐私，仍可能实现 ε-差分隐私，说明隐私放大效应不适用于随机化器层面。
针对非交互式本地协议在指针追踪问题上的下界为 Ω(ℓ/eε)，表明非交互式本地模型与洗牌模型之间存在任意大的分离。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。