QUICK REVIEW

[论文解读] LoPub: High-Dimensional Crowdsourced Data Publication with Local Differential Privacy

Xuebin Ren, Chia-Mu Yu|Aston Publications Explorer (Aston University)|Dec 13, 2016

Privacy-Preserving Technologies in Data参考文献 37被引用 71

一句话总结

LoPub 提出了一种局部差分隐私框架，通过联合使用期望最大化（EM）算法与套索回归（Lasso）来估计多元分布，实现对高维众包数据的发布，兼顾隐私保护与数据效用。该方法在效率方面表现优异——比基线 EM 算法快达 1,000 倍——同时在严格隐私预算下仍能保持超过 67% 的分类准确率。

ABSTRACT

High-dimensional crowdsourced data collected from a large number of users produces rich knowledge for our society. However, it also brings unprecedented privacy threats to participants. Local privacy, a variant of differential privacy, is proposed as a means to eliminate the privacy concern. Unfortunately, achieving local privacy on high-dimensional crowdsourced data raises great challenges on both efficiency and effectiveness. Here, based on EM and Lasso regression, we propose efficient multi-dimensional joint distribution estimation algorithms with local privacy. Then, we develop a Locally privacy-preserving high-dimensional data Publication algorithm, LoPub, by taking advantage of our distribution estimation techniques. In particular, both correlations and joint distribution among multiple attributes can be identified to reduce the dimension of crowdsourced data, thus achieving both efficiency and effectiveness in locally private high-dimensional data publication. Extensive experiments on real-world datasets demonstrated that the efficiency of our multivariate distribution estimation scheme and confirm the effectiveness of our LoPub scheme in generating approximate datasets with local privacy.

研究动机与目标

为在确保局部差分隐私的前提下发布高维众包数据提供解决方案。
解决现有方法在高维相关数据场景下效率低下与效用损失的问题。
开发一种在局部隐私约束下可扩展且准确的多元联合分布估计方法。
实现对数据相关性有效保留并降低维度的高效数据发布，同时不损害隐私。
在真实世界众包感知应用中，平衡计算效率与数据效用。

提出的方法

利用期望最大化（EM）算法从本地差分隐私化数据中迭代估计多元联合分布，提升收敛速度与准确性。
引入基于套索的估计方法，通过利用稀疏性来加速联合分布学习，降低计算复杂度。
采用套索与 EM 的混合方法（Lasso+EM_JD），以稀疏且高质量的估计结果初始化 EM，从而提升收敛速度与准确性。
通过在数据发送前对用户数据进行扰动，实现本地差分隐私，确保无需信任中心服务器。
利用相关性识别技术降低维度与稀疏性，提升估计效率与数据效用。
从估计的分布中生成合成数据，以生成既保护隐私又保留效用的数据集用于发布。

实验结果

研究问题

RQ1如何在局部差分隐私约束下高效估计高维众包数据的多元联合分布？
RQ2在局部私有的高维数据发布中，计算效率与估计准确率之间的权衡关系如何？
RQ3联合分布估计能否为下游分析（如分类）保留足够的数据效用？
RQ4在速度、准确率及隐私-效用权衡方面，基于套索与基于 EM 的估计方法有何差异？
RQ5相关性识别在多大程度上可降低维度，并提升局部私有数据发布的效率？

主要发现

Lasso+EM_JD 混合方法在准确率与效率之间实现了最佳平衡，且在隐私预算增加时性能退化缓慢（f > 0.9）。
基于套索的估计方法比基于 EM 的估计快约 1,000 倍，但在分类任务中偏差略高。
基于 EM 的估计在分类准确率方面优于套索方法，尤其在非二值属性上表现更优，但计算时间更长。
即使在高隐私预算下（f = 0.9），最坏情况下的随机森林分类准确率仍保持在 26%，显著高于 13% 的随机猜测基线。
LoPub 生成的合成数据集保留了足够的信息以支持下游分析，SVM 分类准确率接近非私有基线。
相关性识别实现了有效的降维，提升了高维场景下的效率与估计准确性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。