Skip to main content
QUICK REVIEW

[论文解读] DPCube: Differentially Private Histogram Release through Multidimensional Partitioning

Yonghui Xiao, Li Xiong|arXiv (Cornell University)|Feb 24, 2012
Privacy-Preserving Technologies in Data参考文献 40被引用 34
一句话总结

DPCube 提出了一种基于多维划分的两阶段差分隐私直方图发布方法:一种基线的基于单元的策略,以及一种创新的两阶段 kd 树方法,用于生成 v-最优直方图。通过数据感知的划分最小化噪声,该方法在各种隐私预算下均表现出更高的准确性和鲁棒性,显著提升了线性查询及分类和记录链接等应用的实用性。

ABSTRACT

Differential privacy is a strong notion for protecting individual privacy in privacy preserving data analysis or publishing. In this paper, we study the problem of differentially private histogram release for random workloads. We study two multidimensional partitioning strategies including: 1) a baseline cell-based partitioning strategy for releasing an equi-width cell histogram, and 2) an innovative 2-phase kd-tree based partitioning strategy for releasing a v-optimal histogram. We formally analyze the utility of the released histograms and quantify the errors for answering linear queries such as counting queries. We formally characterize the property of the input data that will guarantee the optimality of the algorithm. Finally, we implement and experimentally evaluate several applications using the released histograms, including counting queries, classification, and blocking for record linkage and show the benefit of our approach.

研究动机与目标

  • 解决针对随机工作负载的非交互式差分隐私直方图发布中实用性不足的挑战。
  • 设计一种多维划分策略,在差分隐私下最小化线性计数查询的误差。
  • 开发一种两阶段 kd 树算法,通过引入均匀性度量,生成具有有界查询误差的 v-最优直方图。
  • 评估发布直方图在真实世界应用(如分类和记录链接阻断)中的实用性。
  • 证明数据感知划分相比基线方法和现有方法能改善隐私-实用性的权衡。

提出的方法

  • 提出一种基线的基于单元的划分策略,将数据空间划分为等宽单元以构建直方图。
  • 引入一种两阶段 kd 树算法,首先构建单元直方图,然后根据均匀性和方差递归划分单元,以实现 v-最优性。
  • 在划分过程中使用均匀性度量,以最小化每个划分内的近似误差,从而提高直方图的准确性。
  • 通过向差分隐私接口(如 PINQ)发出查询来应用差分隐私,使用隐私参数 α 校准每条查询的噪声。
  • 采用简单的查询估计方案,从噪声直方图中重构查询答案,以最小化误差传播。
  • 通过在 kd 树构建过程中重用中间结果,减少对私有接口的查询次数,从而提高效率。

实验结果

研究问题

  • RQ1多维划分策略是否能提升差分隐私直方图在随机线性工作负载下的实用性?
  • RQ2在划分过程中引入均匀性度量是否能生成具有有界查询误差的 v-最优直方图?
  • RQ3与基线的基于单元的方法和分层 kd 树方法相比,两阶段 kd 树方法在查询准确性和鲁棒性方面表现如何?
  • RQ4发布的直方图是否能支持下游任务(如分类和记录链接)并实现更好的隐私-实用性权衡?
  • RQ5隐私预算 α 和数据维度对直方图发布方法性能有何影响?

主要发现

  • 通过两阶段 kd 树方法生成的 v-最优直方图实现了有界的查询误差,并在平滑分布数据上显著优于基线的基于单元的方法,实用性更高。
  • DPCube 直方图 ID3 分类器的准确率与原始 ID3 分类器相当(76.9%),并因更高效的隐私预算使用而优于私有的交互式 ID3 分类器。
  • 在记录链接阻断任务中,DPCube 在不同隐私预算和维度下均保持约 85% 的稳定减少率,优于分层 kd 树方法。
  • 随着属性数量的增加,DPCube 在数据稀疏性方面表现出更强的鲁棒性,而分层 kd 树方法的减少率下降更急剧。
  • 两阶段策略通过重用中间结果减少了对私有接口的查询次数,提高了效率,且未牺牲准确性。
  • 由于通过 v-最优划分实现了优化的噪声分配,该方法在分类和阻断任务中表现出更优性能,尤其在低隐私预算下。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。