QUICK REVIEW

[論文レビュー] Differentially Private k-Means with Constant Multiplicative Error

Haim Kaplan, Uri Stemmer|arXiv (Cornell University)|Apr 21, 2018

Privacy-Preserving Technologies in Data参考文献 15被引用数 28

ひとこと要約

本稿では、集中型および局所型の微分プライバシーの両モデルにおいて、乗法的誤差が定数である最初のプライバシー保護型k-meansアルゴリズムを提示する。これは、先行研究の超定数近似要因と比べて顕著な改善を示す。プライベートコアセット構築とクラスタ重みのノイズ耐性推定を活用することで、追加誤差が先行研究と同等の水準に保たれる一方で、局所型モデルにおける反復回数を定数に削減する。

ABSTRACT

We design new differentially private algorithms for the Euclidean k-means problem, both in the centralized model and in the local model of differential privacy. In both models, our algorithms achieve significantly improved error guarantees than the previous state-of-the-art. In addition, in the local model, our algorithm significantly reduces the number of interaction rounds. Although the problem has been widely studied in the context of differential privacy, all of the existing constructions achieve only super constant approximation factors. We present, for the first time, efficient private algorithms for the problem with constant multiplicative error. Furthermore, we show how to modify our algorithms so they compute private corsets for k-means clustering in both models.

研究の動機と目的

乗法的誤差が定数である微分プライバシー保護型k-meansアルゴリズムを設計し、先行研究の超定数近似要因を克服すること。
局所型微分プライバシーのモデルにおける反復回数を削減し、効率性を向上させること。
すべての可能なセンター集合に対してコスト近似を保つ、k-meansクラスタリングのためのプライベートコアセットを構築すること。
微分プライバシー制約下で、具体的には乗法的誤差が定数かつ追加誤差が最適でないが良好な性能保証を達成すること。
プライベートコアセット構築が、集中型および局所型の両設定で定数近似を達成するために利用可能であることを示すこと。

提案手法

候補センターの集合を特定する微分プライバシー保護型アルゴリズムを設計し、ノイズを含むカウントにより各センターに割り当てられる入力点の数をプライベートに推定する。
プライベートに計算された重み付き候補センター集合上で、局所探索アルゴリズムの変種を用いて最適k-meansコストの近似を求める。
k-meansコストが小さな摂動に対して安定することを活用し、真の重み推定値とノイズを含む推定値の間の誤差を、推定分布に負の重みが存在する場合でも制限する。
候補集合内のすべての可能なkセンターの組み合わせに対して和集合の不等式を適用し、一様近似を保証するとともに、対数的要因を用いて誤差の増大を制御する。
局所型モデルでは二段階アプローチを導入する：まず候補センターをプライベートに計算し、次に最良のkセンターの重みを再計算してプライベートコアセットを構築する。
幾何的安定性と集中不等式を用いて、プライベートに計算された重み付き集合が、すべてのセンター集合に対して真のk-meansコストを一様に近似することを示す。

実験結果

リサーチクエスチョン

RQ1微分プライバシー保護型k-meansアルゴリズムは、超定数近似要因ではなく、乗法的誤差が定数である近似を達成できるか？
RQ2局所型モデルにおける反復回数を定数にまで削減しつつ、定数近似の性能保証を維持できるか？
RQ3微分プライバシー下で、すべての可能なkセンター集合に対してk-meansコストを保持するプライベートコアセットを構築することは可能か？
RQ4特に、プライベート推定プロセスで負の重みが生じる場合に、重み推定のノイズをどのように管理すれば性能保証を維持できるか？
RQ5非プライベートk-meansアルゴリズムの理論的保証（例：6.357近似）が、乗法的誤差が定数に留まる範囲で微分プライバシー下でも保たれるか？

主な発見

本稿では、集中型モデルにおいて、乗法的誤差γ = O(1)の(ε, δ)-微分プライバシーk-meansアルゴリズムを初めて提示する。追加誤差はη = ˜O(k^{1.01} · d^{0.51} + k^{1.5}) · Λ²に保たれる。
局所型モデルでは、反復回数がO(1)で、乗法的誤差が定数であるアルゴリズムを達成しており、先行研究がO(k log n)回の反復を要していたのと比べて改善されている。
局所型モデルにおける追加誤差はη = poly(log(1/β), d, 1/ε, k) · n^{0.67} · Λ²であり、以前の最先端技術と同等の性能を示す。
集中型モデルでは、γ = O(1)およびη = poly(log n, log(1/β), log(1/δ), d, 1/ε, k) · Λ²を満たすプライベートコアセットを構築している。
局所型モデルでは、反復回数が定数である条件下で、γ = O(1)およびη = poly(log(1/β), d, 1/ε, k) · n^{0.67} · Λ²を達成するプライベートコアセット構築を実現している。
理論的解析により、重みがノイズを含み、かつ負の値をとる場合でも、幾何的安定性と和集合の不等式を活用することで、真のデータセットのコストがプライベートに計算された重み付き集合によって良好に近似されることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。