QUICK REVIEW

[論文レビュー] On the Theory and Practice of Privacy-Preserving Bayesian Data Analysis

James R. Foulds, Joseph Geumlek|arXiv (Cornell University)|Mar 23, 2016

Privacy-Preserving Technologies in Data参考文献 22被引用数 27

ひとこと要約

本稿では、漸近的相対効率が非プライベートな事後分布推定と同等になるプライバシー保護型ベイズ推論のためのラプラス機構に基づく手法を提案する。この手法は、1事後サンプル（OPS）法よりもデータ効率に優れ、十分統計量にL1感受性に比例するラプラスノイズを適用することで、MCMCサンプリングにおける効率的かつ再利用可能なプライベートカウントを実現する。実世界の機密性の高いデータ、特にウィキリークスのアフガニスタンおよびイラク軍事記録データセット上でも実用的で、プライバシーと有用性のトレードオフが良好であることが示された。

ABSTRACT

Bayesian inference has great promise for the privacy-preserving analysis of sensitive data, as posterior sampling automatically preserves differential privacy, an algorithmic notion of data privacy, under certain conditions (Dimitrakakis et al., 2014; Wang et al., 2015). While this one posterior sample (OPS) approach elegantly provides privacy "for free," it is data inefficient in the sense of asymptotic relative efficiency (ARE). We show that a simple alternative based on the Laplace mechanism, the workhorse of differential privacy, is as asymptotically efficient as non-private posterior inference, under general assumptions. This technique also has practical advantages including efficient use of the privacy budget for MCMC. We demonstrate the practicality of our approach on a time-series analysis of sensitive military records from the Afghanistan and Iraq wars disclosed by the Wikileaks organization.

研究の動機と目的

プライバシー保護型ベイズ推論における1事後サンプル（OPS）法のデータ非効率性を解消すること。
強い微分的プライバシー保証を維持しつつ、OPSの実用的で効率的な代替手法を開発すること。
ラプラス機構を用いて、プライバシー保護型MCMC推論を近似ベイズ手法へと拡張すること。
実世界の機密データ、具体的にはイラクおよびアフガニスタンのウィキリークス軍事記録データセット上で手法を検証すること。
一般の指数型分布族の下で、ラプラス機構アプローチが非プライベート推定と同等の漸近的効率を達成できることを示すこと。

提案手法

指数型分布族モデルにおける十分統計量（例：カウントベクトル）を、その統計量のL1感受性に比例するノイズを追加することで、ラプラス機構を用いてプライベート化する。
HMMでは、プライベートカウント $\hat{n}_{r,t,d,j}$ を初期化時に一度計算し、すべてのギブズサンプリングステップで再利用することで、計算効率を確保する。
遷移確率および発生確率にラプラス機構を適用し、潜在状態 $z_{r,t}$ およびパrameter $\theta$ のギブズ更新式にプライベートカウントを用いる。
各カウントベクトルの感受性が $\triangle h = 2$ であるため、単一データポイントの変更に対する十分統計量の感受性を制限することで、$\epsilon$-微分的プライバシーを維持する。
MCMCによる近似推論をサポートし、反復処理間でプライベートカウントを再利用することで、プライバシー予算の消費を低減する。
ディリクレ事前分布の場合、プライベートカウントを用いてギブズ更新において切断ディリクレ分布からサンプリングすることで、プライバシーと一貫性を両立する。

実験結果

リサーチクエスチョン

RQ1ラプラス機構に基づくアプローチは、非プライベートなベイズ推定と同等の漸近的相対効率（ARE）を達成するか？
RQ2実際の応用において、ラプラス機構のデータ効率は1事後サンプル（OPS）法と比べてどの程度優れているか？
RQ3ラプラス機構は、微分的プライバシーを保持しつつ、MCMCに基づく近似推論に効果的に適用可能か？
RQ4本手法は、ウィキリークス軍事記録のような実際の機密データセット上でも実用的有用性を示せるか？
RQ5一般の指数型分布族モデルにおいて、本手法は一貫性およびプライバシー保証を維持できるか？

主な発見

ラプラス機構アプローチは、非プライベートな事後分布推定と同等の漸近的相対効率（ARE）を達成し、データ効率においてOPS法を顕著に上回った。
反復処理間でプライベート化されたカウントを再利用することで、MCMCにおけるプライバシー予算の効率的使用が可能となり、累積的プライバシーコストが低減した。
ウィキリークス軍事記録データセット上では、$\epsilon = 5$ の条件下で安定した状態割り当てとパrameter推定が得られ、実用的応用性が裏付けられた。
OPS法は切り捨て処理を要し、データ効率が低く、ホールドアウトデータにおける対数尤度の結果から明確な性能差が確認された。
理論的分析により、感受性が有界な指数型事後分布において、ラプラス機構の一致性が弱い条件下でも保証されることを確認した。
実験的結果から、ラプラス機構は信頼性が高くプライバシー保護型のHMMモデルを生成でき、状態割り当ておよびパrameter推定が非プライベートベースラインと密接に一致した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。