Skip to main content
QUICK REVIEW

[論文レビュー] LoPub: High-Dimensional Crowdsourced Data Publication with Local Differential Privacy

Xuebin Ren, Chia-Mu Yu|Aston Publications Explorer (Aston University)|Dec 13, 2016
Privacy-Preserving Technologies in Data参考文献 37被引用数 71
ひとこと要約

LoPubは、EMとラッソ回帰を用いて多次元分布を共同で推定することで、プライバシーと有用性を両立する、局所的微分プライバシー枠組みを提案する。高い効率性—ベースラインEMに比べ最大1,000倍の高速化—と強力な有用性を達成しており、厳格なプライバシー予算下でも分類精度が67%以上を維持する。

ABSTRACT

High-dimensional crowdsourced data collected from a large number of users produces rich knowledge for our society. However, it also brings unprecedented privacy threats to participants. Local privacy, a variant of differential privacy, is proposed as a means to eliminate the privacy concern. Unfortunately, achieving local privacy on high-dimensional crowdsourced data raises great challenges on both efficiency and effectiveness. Here, based on EM and Lasso regression, we propose efficient multi-dimensional joint distribution estimation algorithms with local privacy. Then, we develop a Locally privacy-preserving high-dimensional data Publication algorithm, LoPub, by taking advantage of our distribution estimation techniques. In particular, both correlations and joint distribution among multiple attributes can be identified to reduce the dimension of crowdsourced data, thus achieving both efficiency and effectiveness in locally private high-dimensional data publication. Extensive experiments on real-world datasets demonstrated that the efficiency of our multivariate distribution estimation scheme and confirm the effectiveness of our LoPub scheme in generating approximate datasets with local privacy.

研究の動機と目的

  • 高次元のクラウドソーシングデータを公開する際の局所的微分プライバシーの確保という課題に対処すること。
  • 高次元かつ相関のあるデータ環境下で、従来手法の非効率性と有用性の損失を克服すること。
  • 局所プライバシー制約下での多次元共同分布推定のスケーラブルで正確な手法を開発すること。
  • 相関を保持し次元削減を図りながら、プライバシーを損なわずに効果的なデータ公開を可能にすること。
  • 実世界のクラウドセンシング応用における計算効率とデータ有用性のバランスを取ること。

提案手法

  • 局所的にプライバシー化されたデータから多次元共同分布を繰り返し推定するためにEMアルゴリズムを活用し、収束性と精度を向上させる。
  • スパarsityを活用して計算複雑性を低減することで、共同分布学習の高速化を図るため、ラッソベースの推定を導入する。
  • ラッソとEMをハイブリッド化したアプローチ(Lasso+EM_JD)を採用し、EMの初期化にスパースで高品質な推定値を用いることで、収束速度と精度を向上させる。
  • ユーザーのデータを送信前にソースで摂動させることで局所的微分プライバシーを適用し、中央サーバーに対する信頼を必要としない。
  • 相関の同定を活用して次元削減とスパarsityを実現し、推定効率とデータ有用性を向上させる。
  • 推定された分布から合成データを生成することで、プライバシーを守りつつ有用性を保ったデータセットを公開可能にする。

実験結果

リサーチクエスチョン

  • RQ1高次元のクラウドソーシングデータに対して、局所的微分プライバシー下で多次元共同分布をどのように効率的に推定できるか?
  • RQ2局所的プライベートな高次元データ公開において、計算効率と推定精度のトレードオフはどのように変化するか?
  • RQ3共同分布推定は、分類のような後続の分析に十分なデータ有用性を保持できるか?
  • RQ4ラッソとEMベースの推定手法は、速度、精度、プライバシー-有用性トレードオフの観点でどのように比較できるか?
  • RQ5相関の同定は、局所的プライベートなデータ公開の効率をどれほど向上させられるか?

主な発見

  • Lasso+EM_JDハイブリッド手法は、精度と効率のバランスが最良であり、プライバシー予算の増加に伴っても劣化が緩やか(f > 0.9)。
  • ラッソベースの推定はEMベースの推定に比べ約1,000倍高速であったが、分類タスクでは高いバイアスを示した。
  • EMベースの推定は、特に二値でない属性において分類精度がラッソを上回ったが、計算時間の増加を伴った。
  • 高いプライバシー予算(f = 0.9)下でも、ランダムフォレスト分類の最悪ケース正答率は26%に保たれ、13%のランダム推測ベースラインを著しく上回った。
  • LoPubが生成した合成データセットは、後続の分析に十分な情報を保持しており、SVM分類の正答率は非プライベートベースラインに近く、高い有用性を示した。
  • 相関の同定により、効果的な次元削減が実現され、高次元環境下での効率性と推定精度の両方が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。