Skip to main content
QUICK REVIEW

[论文解读] Clustering Algorithms for the Centralized and Local Models

Kobbi Nissim, Uri Stemmer|arXiv (Cornell University)|Jul 15, 2017
Privacy-Preserving Technologies in Data参考文献 3被引用 26
一句话总结

本文提出了首个在集中式和本地模型中实现最小包围球问题常数因子近似解的差分隐私算法。通过结合局部敏感哈希(LSH)与私有平均值计算及重头元素估计,作者设计了高效的算法,在聚类规模上的加法误差最小,从而在两种模型中均实现了改进的私有 k-means 聚类。

ABSTRACT

We revisit the problem of finding a minimum enclosing ball with differential privacy: Given a set of $n$ points in the Euclidean space $\mathbb{R}^d$ and an integer $t\leq n$, the goal is to find a ball of the smallest radius $r_{opt}$ enclosing at least $t$ input points. The problem is motivated by its various applications to differential privacy, including the sample and aggregate technique, private data exploration, and clustering. Without privacy concerns, minimum enclosing ball has a polynomial time approximation scheme (PTAS), which computes a ball of radius almost $r_{opt}$ (the problem is NP-hard to solve exactly). In contrast, under differential privacy, until this work, only a $O(\sqrt{\log n})$-approximation algorithm was known. We provide new constructions of differentially private algorithms for minimum enclosing ball achieving constant factor approximation to $r_{opt}$ both in the centralized model (where a trusted curator collects the sensitive information and analyzes it with differential privacy) and in the local model (where each respondent randomizes her answers to the data curator to protect her privacy). We demonstrate how to use our algorithms as a building block for approximating $k$-means in both models.

研究动机与目标

  • 在集中式和本地隐私模型下,为 1-聚类问题(即寻找一个最小半径球体以包含至少 t 个点)设计差分隐私算法。
  • 在半径上实现与最优半径 ropt 的常数因子近似(w = O(1)),优于集中式模型中先前的 O(√log n)-近似。
  • 通过将 1-聚类算法作为构建模块,实现私有 k-means 聚类,扩展其在无可信协调者的本地模型中的适用性。
  • 在差分隐私约束下,最小化覆盖点数的加法误差 Δ,同时保持半径上的常数因子近似 w = O(1)。

提出的方法

  • 利用一族局部敏感哈希函数(LSH)识别输入点的若干小而互不相交的子集,其中至少一个子集被近似包含于最小包围球内。
  • 对识别出的子集应用差分隐私平均值计算,以估计包围球内的中心点,确保在保持准确度的同时满足隐私要求。
  • 在本地模型中,将 LSH 与 Bassily 等人 [2] 提出的最优本地重头元素算法结合,识别位于候选球体内的点。
  • 使用噪声估计(通过 ϵ-LDP)对候选区域中的点数进行估计,利用类似定理 5.3 的机制确保差分隐私。
  • 通过 λ-独立随机哈希从候选球体中采样点的子集,利用尾部不等式确保集中性界限。
  • 迭代排除已识别的聚类并重复该过程以寻找多个中心点,使用剩余点数的阈值作为停止条件。

实验结果

研究问题

  • RQ1在集中式模型中,能否在差分隐私下实现最小包围球问题的常数因子近似,从而优于先前的 O(√log n)-近似?
  • RQ2能否设计一种高效的差分隐私算法用于本地模型中的 1-聚类问题,使得用户在无需信任协调者的情况下自行随机化其数据?
  • RQ3如何将 1-聚类算法扩展,以在本地模型中实现具有可证明误差边界的私有 k-means 聚类?
  • RQ4在两种模型中,近似因子、聚类规模的加法误差与隐私参数之间的权衡关系如何?

主要发现

  • 所提出的集中式算法在最小包围球问题上实现了常数因子近似(w = O(1)),显著优于先前的 O(√log n)-近似。
  • 在本地模型中,算法实现了常数因子近似,加法误差为 ∆ = O(1/ϵ · n^0.67 · log(n|X|)),支持在最小信任下实现实际部署。
  • 该算法支持除欧几里得空间外的一般度量空间,前提是局部敏感哈希和私有平均值计算可行。
  • 该构造首次实现了可证明的本地差分隐私 k-means 聚类算法,其误差边界由 1-聚类原 primitive 推导得出。
  • 迭代过程确保每次迭代至少排除 ni/(4k) 个点,将迭代次数限制在 O(k log n) 以内,支持高效计算。
  • 该算法的执行结构与非私有 k-means 算法一致,确保在高概率下,输出中心集 B 在两种执行中完全相同,从而验证了正确性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。