Skip to main content
QUICK REVIEW

[論文レビュー] Differentially Private Publication of Sparse Data

Graham Cormode, Cecilia M. Procopiuc|arXiv (Cornell University)|Mar 4, 2011
Privacy-Preserving Technologies in Data参考文献 19被引用数 37
ひとこと要約

この論文は、マテリアライズドされた巨大な連携表を避けるために、ノイズののったデータのコンactな要約を直接生成することで、スパースデータセットの差分プライバシー公開のスケーラビリティを向上する手法を提案する。アプローチは、フィルタリング、プライオリティサンプリング、整合性チェックを用い、出力サイズを桁違いに削減しながら、強力なプライバシー保証と、単純なノイズ注入に比べて同等または優れたクエリ精度を維持する。

ABSTRACT

The problem of privately releasing data is to provide a version of a dataset without revealing sensitive information about the individuals who contribute to the data. The model of differential privacy allows such private release while providing strong guarantees on the output. A basic mechanism achieves differential privacy by adding noise to the frequency counts in the contingency tables (or, a subset of the count data cube) derived from the dataset. However, when the dataset is sparse in its underlying space, as is the case for most multi-attribute relations, then the effect of adding noise is to vastly increase the size of the published data: it implicitly creates a huge number of dummy data points to mask the true data, making it almost impossible to work with. We present techniques to overcome this roadblock and allow efficient private release of sparse data, while maintaining the guarantees of differential privacy. Our approach is to release a compact summary of the noisy data. Generating the noisy data and then summarizing it would still be very costly, so we show how to shortcut this step, and instead directly generate the summary from the input data, without materializing the vast intermediate noisy data. We instantiate this outline for a variety of sampling and filtering methods, and show how to use the resulting summary for approximate, private, query answering. Our experimental study shows that this is an effective, practical solution, with comparable and occasionally improved utility over the costly materialization approach.

研究の動機と目的

  • スパースデータセットの差分プライバシー的リリースにおけるスケーラビリティのボトルネックに対処すること。ここでは、単純なノイズ注入によって、処理不能な巨大な連携表が生成される。
  • 完全なノイズののったテーブルをマテリアライズせず、高次元で低密度のデータに対して効率的かつプライベートなクエリ応答を可能にすること。
  • 生データから直接、コンパクトでプライバシー保護された要約を生成する技術を開発することにより、計算およびストレージのオーバーヘッドを最小限に抑えること。
  • フィルタリングとサンプリング戦略を通じてノイズの伝播を低減することで、プライベートデータリリースのユーティリティを向上させること。
  • 整合性チェックと二項範囲表現が、スパースデータにおける範囲クエリの精度向上にどの程度効果的であるかを評価すること。

提案手法

  • 完全なノイズののった連携表をマテリアライズしないで、プライバシー保護された要約を直接生成するショートカット手法を提案する。
  • ノイズ注入の前に、低価値のエントリをフィルタリングすることで、スパース領域におけるノイズの影響を低減する。
  • 大きさに基づいて代表的なエントリを選択するプライオリティサンプリングを用い、信号を保持しつつ出力サイズを最小限に抑える。
  • 二項範囲における整合性チェックを統合し、元来ゼロだったエントリからのノイズを除去することで、スパースで非一様なデータにおける精度を向上させる。
  • フィルタリングとプライオリティサンプリングを統合したハイブリッドな「フィルタ-プライオリティ」手法を考案し、データのスパarsityとクエリパターンに適応する。
  • ベースライン比較のための幾何的メカニズムノイズを用いるが、完全なテーブル生成を回避するように要約構築を最適化する。

実験結果

リサーチクエスチョン

  • RQ1完全なノイズののった連携表をマテリアライズしないで、スパースで高次元のデータセットに対して差分プライバシーを達成できるか?
  • RQ2低価値エントリのフィルタリングが、差分プライバシー的クエリ応答のユーティリティと精度にどのように影響するか?
  • RQ3プライオリティサンプリングは、一様サンプリングや単純なノイズ注入に比べて、どの程度ユーティリティを向上させるか?
  • RQ4整合性チェックは、スパースデータにおける元来ゼロのエントリからのノイズ低減にどの程度効果的か?
  • RQ5二項範囲表現は、コンパクトに要約されたプライベートデータにおける範囲クエリの精度向上に寄与するか?

主な発見

  • 提案されたショートカット手法により、単純なノイズ注入に比べて出力サイズが最大1000倍まで削減され、大規模なスパースデータセットに対するプライベートなデータリリースが可能になった。
  • フィルタ-プライオリティサンプリングは、データ空間の5%以上をカバーするクエリにおいて、相対的クエリ誤差が0.8%未満に抑えられ、完全なノイズののったテーブルと同等またはそれ以上の精度を達成した。
  • 整合性チェックは、極めてスパースで非一様なデータでは誤差を30%~60%、より一様なデータでは10%削減した。
  • 同様のプライバシーパラメータ下で、確率的差分プライバシー手法(例:Machanavajjhalaら)よりもクエリ精度が優れており、絶対誤差がそれらの手法の3倍以上低かった。
  • 大規模なクエリ(データ空間の20%以上)では、プライオリティサンプリングが他の手法を著しく上回り、完全な幾何的メカニズムと同等の誤差を示したが、出力サイズははるかに小さかった。
  • コンパクトな要約アプローチは、整合性チェックにより不必要なゼロエントリからのノイズを排除することで、強いプライバシー保証を維持しながらユーティリティを向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。