Skip to main content
QUICK REVIEW

[論文レビュー] Model-based Differentially Private Data Synthesis

Fang Liu|arXiv (Cornell University)|Jun 26, 2016
Privacy-Preserving Technologies in Data参考文献 47被引用数 21
ひとこと要約

本稿では、微小データの合成に差分プライバシー(DP)を統合することで、強いプライバシー保証を実現する、ベイジアンフレームワークであるモデルベース差分プライバシー付きデータ合成(ModiPS)を提案する。複数の合成データセットと分散結合ルールを用いることで、プライバシー予算の範囲内でプライバシーを確保しつつ、データの有用性を維持する。また、公開されたデータからの推定量について理論的一貫性を確立する。

ABSTRACT

We propose model-based based differential private data synthesis (modips) in the Bayesian framework for releasing individual-level surrogate data sets for the original with strong privacy guarantee. The modips technique integrates differential privacy (DP) -- a concept discussed largely in the theoretical computer science community -- into microdata synthesis in statistical disclosure limitation. The modips guarantees individual privacy protection at a given privacy budget without making assumptions about data intruder's behaviors and knowledge. The privacy budget can be used as tuning parameters in the trade-off between privacy protection and original information preservation in synthesized surrogate data. The uncertainty from the sanitization and synthetic process in the modips can be accounted for by releasing multiple synthetic data sets and by applying the proposed variance combination rule. We also characterize the conditions for the consistency of estimators based on released synthetic data. The modips method provides a viable alternative to the currently limited choice set of microdata synthesis approaches in statistical disclosure limitation.

研究の動機と目的

  • 統計的漏洩制限分野における、強固でプライバシーを守る微小データ合成手法の不足に対処すること。
  • データの侵害者に関する知識や行動に関する仮定を一切用いずに、個人のプライバシーを保証する手法を提供すること。
  • プライバシー予算を用いることで、プライバシー保護と情報保持の間で調整可能なトレードオフを実現すること。
  • 複数の合成データセットを用いて、洗浄および合成プロセスにおける不確実性を適切に捉えること。
  • 公開された合成データからの推定量について理論的一貫性を確立すること。

提案手法

  • 微小データ合成のベイジアンフレームワークに差分プライバシー(DP)を統合し、個人レベルのプライバシーを確保すること。
  • プライバシー予算を調整パrameterとして適用し、プライバシーとデータ有用性の間のトレードオフを制御すること。
  • 洗浄および合成プロセスに起因する不確実性を捉えるために、複数の合成データセットを生成すること。
  • 複数の合成データセットにわたる推論結果を適切に集約するために、分散結合ルールを採用すること。
  • データの不確実性を表現し、事後推論を支援するためにベイジアン階層モデルを用いること。
  • 合成データに基づく推定量が、元のデータからの推定量と一貫する条件を導出すること。

実験結果

リサーチクエスチョン

  • RQ1差分プライバシーを微小データ合成に効果的に統合する方法は何か? これにより、強い個人レベルのプライバシー保証が達成できるか?
  • RQ2プライバシー予算が、元の統計的性質を保持する合成データの有用性に与える影響は何か?
  • RQ3DPによる合成プロセスに起因する不確実性を、複数の合成データセットにわたって適切に定量化・統合する方法は何か?
  • RQ4合成データに基づく推定量が、元のデータからの推定量と一貫する条件は何か?
  • RQ5提案手法は、統計的漏洩制限分野における既存の微小データ合成技術の実用的代替手段として成立するか?

主な発見

  • ModiPS手法は、侵害者に関する知識に関する仮定を一切用いずに、所定のプライバシー予算における差分プライバシーを保証することで、強固なプライバシー保証を実現する。
  • プライバシー予算により、プライバシー保護と元のデータ情報の保持の間で柔軟なトレードオフを実現できる。
  • 複数の合成データセットは、DPメカニズムおよび合成プロセスに起因する不確実性を効果的に捉えている。
  • 提案された分散結合ルールにより、合成データセットにわたる結果の適切な集約が可能となり、有効な統計的推論が可能になる。
  • 合成データからの推定量が、元のデータからの推定量と一貫する条件が理論的に確立された。
  • ModiPSは、統計的漏洩制限の文脈において、既存の微小データ合成手法の実用的で理論的根拠のある代替手段を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。