QUICK REVIEW

[论文解读] Differentially Private k-Means with Constant Multiplicative Error

Haim Kaplan, Uri Stemmer|arXiv (Cornell University)|Apr 21, 2018

Privacy-Preserving Technologies in Data参考文献 15被引用 28

一句话总结

该论文首次在集中式和本地差分隐私模型中提出了具有恒定乘法误差的差分隐私k均值算法，显著优于以往的超常数近似因子。通过利用私有核心集构建和对聚类权重的抗噪声估计，该方法在保持与先前工作相当的加法误差的同时，将本地模型中的交互轮数减少到常数。

ABSTRACT

We design new differentially private algorithms for the Euclidean k-means problem, both in the centralized model and in the local model of differential privacy. In both models, our algorithms achieve significantly improved error guarantees than the previous state-of-the-art. In addition, in the local model, our algorithm significantly reduces the number of interaction rounds. Although the problem has been widely studied in the context of differential privacy, all of the existing constructions achieve only super constant approximation factors. We present, for the first time, efficient private algorithms for the problem with constant multiplicative error. Furthermore, we show how to modify our algorithms so they compute private corsets for k-means clustering in both models.

研究动机与目标

设计具有恒定乘法误差的差分隐私k均值算法，克服先前工作中存在的超常数近似因子问题。
减少本地差分隐私模型中的交互轮数，提升效率。
为k均值聚类构建私有核心集，使其对所有可能的中心集保持成本近似。
在差分隐私约束下实现改进的效用界——具体而言，即恒定乘法误差和次优加法误差。
证明私有核心集构建可用于在集中式和本地设置中实现恒定因子近似。

提出的方法

设计一种差分私有的算法，用于识别一组候选中心，并通过噪声计数私密估计每个中心分配到的输入点数量。
在通过私密计算得到的加权候选中心集上使用局部搜索算法的变体，以近似最优k均值成本。
利用k均值成本在小扰动下的稳定性，即使在估计分布中出现负权重的情况下，也能限制真实值与噪声权重估计之间的误差。
通过对候选集中所有可能的k中心组合应用并集界，确保统一近似，同时通过对数因子控制误差增长。
在本地模型中引入两阶段方法：首先私密计算候选中心，然后重新计算最优k个中心的权重，以形成私有核心集。
利用几何稳定性和集中不等式，证明私密计算的加权集能统一近似所有中心集的真实k均值成本。

实验结果

研究问题

RQ1差分隐私k均值算法能否实现恒定乘法误差，而非超常数近似因子？
RQ2在本地模型中，能否将交互轮数减少到常数，同时保持恒定因子的效用？
RQ3能否在差分隐私约束下构建一个私有核心集，使其对所有可能的k中心集均保持k均值成本近似？
RQ4如何管理权重估计中的噪声以保持效用，特别是在私密估计过程中出现负权重时？
RQ5能否在仅引入恒定乘法因子的情况下，保留非私有k均值算法（如6.357近似）的理论保证？

主要发现

该论文首次在集中式模型中提出了(ε, δ)-差分隐私k均值算法，实现恒定乘法误差γ = O(1)，同时保持加法误差η = ˜O(k^{1.01} · d^{0.51} + k^{1.5}) · Λ²。
在本地模型中，所提算法仅需O(1)轮交互即可实现恒定乘法误差，优于以往需要O(k log n)轮的工作。
本地模型中的加法误差为η = poly(log(1/β), d, 1/ε, k) · n^{0.67} · Λ²，与先前最先进水平相当。
该论文在集中式模型中构建了(γ, η)-核心集，其中γ = O(1)，η = poly(log n, log(1/β), log(1/δ), d, 1/ε, k) · Λ²。
在本地模型中，私有核心集构建实现了γ = O(1)和η = poly(log(1/β), d, 1/ε, k) · n^{0.67} · Λ²，且交互轮数为常数。
理论分析表明，即使权重存在噪声且可能为负，通过利用几何稳定性和并集界，真实数据集的成本仍能被私密计算的加权集良好近似。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。