QUICK REVIEW
[論文レビュー] Differential Privacy By Sampling
Josh Joy, Mário Gerla|arXiv (Cornell University)|Jan 1, 2017
Privacy-Preserving Technologies in Data参考文献 17被引用数 5
ひとこと要約
本稿では、従来の摂動手法とは異なり、確率的サンプリングを用いることで、定数の絶対誤差を達成するとともに、プライバシー保証を向上させる、Sampling Privacy と呼ばれる新しい微分プライバシー機構を提案する。ランダム化応答とは異なり、母集団サイズが増加しても推定誤差が増大するのを回避し、安定した精度を維持しながらプライバシー漏洩を低減する。実データセットを用いた評価では、ベースライン手法と比較して最大で4倍低いεを達成した。
ABSTRACT
In this paper we present the Sampling Privacy mechanism for privately releasing personal data. Sampling Privacy is a sampling based privacy mechanism that satisfies differential privacy.
研究の動機と目的
- ランダム化応答のような既存の微分プライバシー機構が母集団サイズの増加に伴い推定誤差が増大するというスケーラビリティおよび精度の制限を解消すること。
- 母集団サイズに依存しない定数の絶対誤差を維持する分散型でサンプリングに基づくアプローチを開発し、スケーラブルなプライベートデータ公開を可能にすること。
- 個々の寄与をより効果的に隠蔽するためにサンプリングを活用することで、ランダム化応答よりもプライバシー漏洩(ε)を低減すること。
- 実世界の応用例(例:健康データやモビリティトラッキング)において、データの有用性を保ちながらε-微分プライバシーを満たす実用的で導入可能なメカニズムを提供すること。
提案手法
- 各データ所有者が独立して、真の回答を公開するかどうかを確率的に決定する、サンプリングに基づくプライバシー機構を提案。真実の開示確率を制御するために、2つの不偏でないコイン投げを用いる。
- プライバシーと精度のトレードオフを制御するためのサンプリングパラメータ(例:0.45)を用い、個々の寄与が確率的選択によって隠蔽されることを保証する。
- ε-微分プライバシーを形式的に定量化するためのプライバシー保証式(式29)を用い、攻撃者に対していかなる状況でも証明可能なプライバシー保護を確保する。
- 集計されたプライベートな応答から真のカウントを推定する際、期待されるノイズを差し引いた後、サンプリング確率で正規化することで推定を行う。ランダム化応答と同様の手法だが、誤差の安定性が向上している。
- 母集団サイズが変化しても絶対誤差が一定に保たれるようにメカニズムをキャリブレーションし、ランダム化応答とは異なり、母集団が増加するにつれて標準偏差が増大するのを回避する。
- 実データセット(Gowallaのチェックインデータ、乳がんデータ)を用いて、ランダム化応答や他のベースライン手法と比較して誤差とプライバシー漏洩を評価する。
実験結果
リサーチクエスチョン
- RQ1母集団サイズが増加しても、従来のランダム化応答とは異なり、サンプリングに基づくメカニズムが定数の絶対誤差を維持できるか。
- RQ2サンプリングに基づくプライベート化は、データ有用性を保ちながら、ランダム化応答よりもプライバシー漏洩(ε)を低減できるか。
- RQ3Sampling Privacy メカニズムの性能は、さまざまな感受性属性の分布を示す実世界のデータセットにおいて、どのようにスケーリングするか。
- RQ4中央集権的なノイズ注入に依存せずに、サンプリング手法が個々の寄与をどれほど効果的に隠蔽できるか。
主な発見
- 母集団が286人から10,000人へと増加しても、Sampling Privacy は定数の絶対誤差を維持するが、ランダム化応答はサンプリング分散の増大により誤差が急激に増大する。
- 乳がんデータセットにおいて、同等の条件下でSampling Privacyはランダム化応答と比較して最大で4倍低いプライバシー漏洩(ε)を達成し、マイノリティ層の推定誤差も顕著に低減された。
- プライバシー保証は式29を用いて形式的に定量化されており、同じサンプリングパラメータを使用した場合、ランダム化応答よりもきめ細やかな境界でε-微分プライバシーを満たしていることが示された。
- Gowallaのチェックインデータを用いた評価では、Sampling Privacy は真のカウントが異なる場所においても安定した推定精度を維持したが、ランダム化応答は高精度な設定において高い分散を示した。
- 図3の赤丸マーカーは、最適化されたランダム化応答のパラメータを使用しても、2番目のコイン投げの確率のすべての値において、Sampling Privacy がより低いプライバシー漏洩を達成していることを示している。
- この手法は、がん患者やレッドミート摂取者といったマイノリティ層の応答を、より多様なサンプルに混ぜ込むことで、再識別リスクを低減し、効果的に保護する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。