Skip to main content
QUICK REVIEW

[論文レビュー] Clustering Algorithms for the Centralized and Local Models

Kobbi Nissim, Uri Stemmer|arXiv (Cornell University)|Jul 15, 2017
Privacy-Preserving Technologies in Data参考文献 3被引用数 26
ひとこと要約

本稿では、集中型およびローカルモデルの両方において、最小包含球問題に対する最初の微分プライバシーを満たすアルゴリズムを提示する。局所的感度ハッシュ(LSH)とプライベート平均およびヘビーハイターズ推定を組み合わせることで、クラスターサイズにおける最小限の加法的誤差で最適半径の定数倍近似を達成する効率的なアルゴリズムを設計し、両モデルにおける改善されたプライベートk-meansクラスタリングを可能にする。

ABSTRACT

We revisit the problem of finding a minimum enclosing ball with differential privacy: Given a set of $n$ points in the Euclidean space $\mathbb{R}^d$ and an integer $t\leq n$, the goal is to find a ball of the smallest radius $r_{opt}$ enclosing at least $t$ input points. The problem is motivated by its various applications to differential privacy, including the sample and aggregate technique, private data exploration, and clustering. Without privacy concerns, minimum enclosing ball has a polynomial time approximation scheme (PTAS), which computes a ball of radius almost $r_{opt}$ (the problem is NP-hard to solve exactly). In contrast, under differential privacy, until this work, only a $O(\sqrt{\log n})$-approximation algorithm was known. We provide new constructions of differentially private algorithms for minimum enclosing ball achieving constant factor approximation to $r_{opt}$ both in the centralized model (where a trusted curator collects the sensitive information and analyzes it with differential privacy) and in the local model (where each respondent randomizes her answers to the data curator to protect her privacy). We demonstrate how to use our algorithms as a building block for approximating $k$-means in both models.

研究の動機と目的

  • 集中型およびローカルプライバシーモデルの両方において、少なくともt個の点を含む最小半径の球を求める1クラスタ問題に対する微分プライバシーを満たすアルゴリズムを開発すること。
  • 最適半径roptに対する定数倍近似(w = O(1))を達成し、集中型モデルにおける従来のO(√log n)-近似を改善すること。
  • 1クラスタアルゴリズムを構築ブロックとして用いることで、信頼できるキュレーターが存在しないローカルモデルにおけるプライベートk-meansクラスタリングを可能にすること。
  • 微分プライバシー制約下で、半径の近似(w = O(1))を維持しつつ、カバーされる点数の加法的誤差(Δ)を最小限に抑えること。

提案手法

  • 入力点の小さな、互いに素な部分集合を特定するため、局所的感度ハッシュ関数(LSH)の族を用いる。そのうちの1つは、おおよそ最小の包含球に含まれる。
  • 識別された部分集合に対して微分プライバシーを満たす平均を適用し、包含球内に位置する中心を推定する。これにより、プライバシーを保ちつつ精度を維持する。
  • ローカルモデルでは、LSHとBassilyら[2]の最適なローカルヘビーハイターズアルゴリズムを組み合わせ、候補球内にある点を特定する。
  • ε-LDPを用いたノイズ推定により、候補領域内の点数を推定し、定理5.3などのメカニズムを用いて微分プライバシーを保証する。
  • λ-独立性を持つ確率的ハッシュを用いて、候補球から点の一部をサンプリングし、テール不等式による集中不等式を満たす。
  • 識別されたクラスタを反復的に除外し、複数の中心を特定するプロセスを繰り返す。反復の停止条件は、残りの点数に対するしきい値に依存する。

実験結果

リサーチクエスチョン

  • RQ1集中型モデルにおいて、最小包含球問題に対して微分プライバシーを満たす定数倍近似を達成できるか。これは、従来のO(√log n)-近似を改善するものである。
  • RQ2ユーザーが自身のデータをランダム化するが、キュレーターを信頼できないローカルモデルにおいて、1クラスタ問題に対する効率的な微分プライバシーを満たすアルゴリズムを設計できるか。
  • RQ31クラスタアルゴリズムをどのように拡張すれば、ローカルモデルにおけるk-meansクラスタリングを、保証された誤差境界とともに可能にすることができるか。
  • RQ4両モデルにおいて、近似要因、クラスターサイズの加法的誤差、およびプライバシーパラメータの間のトレードオフはどのようなものか。

主な発見

  • 提案された集中型アルゴリズムは、最小包含球問題に対して定数倍近似要因(w = O(1))を達成し、従来のO(√log n)-近似を著しく改善する。
  • ローカルモデルでは、加法的誤差Δ = O(1/ϵ · n^0.67 · log(n|X|))を伴う定数倍近似を達成し、最小限の信頼を要する実用的導入を可能にする。
  • ユークリッド空間に限らない一般の距離空間に対しても、局所的感度ハッシュとプライベート平均が可能であれば、本構成は有効である。
  • 本構成により、誤差境界が1クラスタプリミティブから導かれる、初めての保証付きローカル微分プライバシーk-meansクラスタリングアルゴリズムが実現される。
  • 反復処理により、各反復で少なくともni/(4k)個の点が除外され、反復回数がO(k log n)に制限される。これにより、計算の効率性が保証される。
  • アルゴリズムの実行は、非プライベートk-meansアルゴリズムと構造が同一であり、高確率で出力される中心集合Bが両実行で同一になるため、正しさが検証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。