Skip to main content
QUICK REVIEW

[论文解读] Communication Efficient, Sample Optimal, Linear Time Locally Private Discrete Distribution Estimation.

Jayadev Acharya, Ziteng Sun|arXiv (Cornell University)|Feb 13, 2018
Privacy-Preserving Technologies in Data被引用 12
一句话总结

本文提出了Hadamard Response(HR),一种在$\varepsilon$-局部差分隐私下实现通信高效、样本最优且线性时间的离散分布估计机制。通过利用Hadamard矩阵和快速沃尔什-哈达玛变换,HR实现了$\log k + 2$比特的通信开销和接近线性的$O(nk)$时间复杂度,在$k=10,000$时,相较于RAPPOR和子集选择等先前方法,速度最高提升100倍。该方法在所有隐私范围内均实现了阶最优的样本复杂度。

ABSTRACT

We consider discrete distribution estimation over $k$ elements under $\varepsilon$-local differential privacy from $n$ samples. The samples are distributed across users who send privatized versions of their sample to the server. All previously known sample optimal algorithms require linear (in $k$) communication complexity in the high privacy regime $(\varepsilon<1)$, and have a running time that grows as $n\cdot k$, which can be prohibitive for large domain size $k$. We study the task simultaneously under four resource constraints, privacy, sample complexity, computational complexity, and communication complexity. We propose \emph{Hadamard Response (HR)}, a local non-interactive privatization mechanism with order optimal sample complexity (for all privacy regimes), a communication complexity of $\log k+2$ bits, and runs in nearly linear time. Our encoding and decoding mechanisms are based on Hadamard matrices, and are simple to implement. The gain in sample complexity comes from the large Hamming distance between rows of Hadamard matrices, and the gain in time complexity is achieved by using the Fast Walsh-Hadamard transform. We compare our approach with Randomized Response (RR), RAPPOR, and subset-selection mechanisms (SS), theoretically, and experimentally. For $k=10000$, our algorithm runs about 100x faster than SS, and RAPPOR.

研究动机与目标

  • 为解决现有局部差分隐私机制在高隐私范围($\varepsilon < 1$)下通信和计算成本过高的问题。
  • 设计一种在所有隐私范围($\varepsilon$-LDP)下均实现最优样本复杂度的局部私有机制。
  • 将每位用户的通信复杂度降低至$\log k + 2$比特,同时保持准确性。
  • 实现接近线性的$O(nk)$运行时间,显著优于现有$O(nk)$算法中较高的常数因子。

提出的方法

  • 所提出的Hadamard Response(HR)机制采用基于Hadamard矩阵的非交互式、本地化私有化方案。
  • 每位用户使用Hadamard矩阵的一行对自身样本进行编码,确保编码字之间的汉明距离较大,从而提升估计的鲁棒性。
  • 服务器应用快速沃尔什-哈达玛变换(FWHT)高效解码经私有化的报告,并估计底层分布。
  • 该方法利用Hadamard矩阵的正交性和高距离特性,以最小通信量实现最小估计误差。
  • 编码和解码过程设计为计算轻量化,从而实现接近线性的时间复杂度。
  • 理论分析证明,HR在所有$\varepsilon$-LDP隐私范围内均实现了阶最优的样本复杂度。

实验结果

研究问题

  • RQ1是否能够设计一种局部私有分布估计机制,在高隐私范围($\varepsilon < 1$)下同时实现最优样本复杂度和次线性通信?
  • RQ2是否可能将局部私有估计的计算复杂度从$O(nk)$降低至接近线性时间,同时保持准确性?
  • RQ3Hadamard矩阵的使用如何提升局部差分隐私中的通信效率和估计准确性?
  • RQ4与随机响应、RAPPOR和子集选择等现有机制相比,HR在速度和通信方面有何性能提升?
  • RQ5快速沃尔什-哈达玛变换是否能有效加速大规模离散分布估计中的解码过程?

主要发现

  • 当$k = 10,000$时,所提出的Hadamard Response算法的运行速度约为子集选择(SS)机制和RAPPOR的100倍。
  • HR的通信复杂度降低至每位用户$\log k + 2$比特,显著低于以往与$k$线性相关的通信方法。
  • HR在所有隐私范围内(包括高隐私范围$\varepsilon < 1$)均实现了阶最优的样本复杂度。
  • 利用快速沃尔什-哈达玛变换,HR实现了接近线性的$O(nk)$运行时间,优于现有$O(nk)$算法中较高的常数因子。
  • 理论和实验结果均表明,HR在保持极低通信和计算开销的同时,维持了高估计准确性。
  • Hadamard矩阵行间较大的汉明距离直接提升了样本效率和私有化估计的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。