Skip to main content
QUICK REVIEW

[論文レビュー] Privacy and Statistical Risk: Formalisms and Minimax Bounds

Rina Foygel Barber, John C. Duchi|arXiv (Cornell University)|Dec 15, 2014
Privacy-Preserving Technologies in Data参考文献 22被引用数 49
ひとこと要約

本稿は、微分プライバシー、近似微分プライバシー、テストベースのプライバシーなど、複数のプライバシー定義を形式的に定式化し、特定の条件下でそれらが同等であることを示している。これらのプライバシー制約下での統計的推定におけるミニマックスリスクバウンドを導出し、プライバシー定義が類似した統計的性能をもたらすが、次元およびモーメント仮定に依存する形で異なることを明らかにしている。

ABSTRACT

We explore and compare a variety of definitions for privacy and disclosure limitation in statistical estimation and data analysis, including (approximate) differential privacy, testing-based definitions of privacy, and posterior guarantees on disclosure risk. We give equivalence results between the definitions, shedding light on the relationships between different formalisms for privacy. We also take an inferential perspective, where---building off of these definitions---we provide minimax risk bounds for several estimation problems, including mean estimation, estimation of the support of a distribution, and nonparametric density estimation. These bounds highlight the statistical consequences of different definitions of privacy and provide a second lens for evaluating the advantages and disadvantages of different techniques for disclosure limitation.

研究の動機と目的

  • 統計的推定におけるプライバシーの定義、特に微分プライバシー、近似微分プライバシー、テストベースのプライバシーを含め、それらを形式化し比較すること。
  • 推定問題におけるミニマックスリスクバウンドを通じて、これらのプライバシー定義の統計的影響を分析すること。
  • 平均推定、サポート推定、密度推定において、漏洩リスクと統計的性能のトレードオフを評価すること。
  • さまざまなプライバシー制約下でのミニマックス最適推定手順を提供し、次元およびモーメント依存性の違いを強調すること。
  • 特に生データではなく母数を対象として、プライバシーと利便性のトレードオフを理解する統一的枠組みを提供すること。

提案手法

  • 攻撃者がすべてのデータポイントを除き1つを除いて知っているという一貫した敵対的モデルを提案する。
  • 微分プライバシー(DP)、近似DP、より強いDPの変種、およびテストベースの定義を含む、複数の形式的定義を用いてプライバシーを定義する。
  • 集中不等式と射影論法を用いて、特にd次元平均推定においてミニマックス下界を導出する。
  • プライバシーを達成しつつ統計的リスクを最小化するため、ノイズを付加した切り捨て平均推定量を導入する。
  • バイアス-バリアンス分解を用いて平均二乗誤差をバウンドし、モーメント仮定と切り捨て閾値を組み込む。
  • さまざまなプライバシー定義(例:KL、微分、近似微分)下で、切り捨てレベルとノイズ分散の最適化を通じてプライバシー-利便性トレードオフを分析する。

実験結果

リサーチクエスチョン

  • RQ1微分プライバシーとテストベースの定義を含む、さまざまなプライバシー形式化は、統計的含意の観点からどのように関係しているか?
  • RQ2さまざまなプライバシー制約下でのd次元分布の平均推定におけるミニマックスリスクバウンドは何か?
  • RQ3基礎となる分布のモーメントの数が、プライベート推定におけるミニマックスリスクにどのように影響するか?
  • RQ4さまざまなプライバシー定義において、最適推定誤差が次元dおよびプライバシーパラメータ(例:α, δ)にどのように依存するか?
  • RQ5プライバシー保護推定量はミニマックス最適性に達することができるか?また、それらのレートは異なる形式化においてどのように比較されるか?

主な発見

  • さまざまなプライバシー定義下でのd次元平均推定におけるミニマックス平均二乗誤差は、分布のモーメント数kについて、類似した漸近的依存性を示す。
  • α-KLプライバシーの下では、ミニマックスリスクがO(r²/n + r²(d/(n²α_KL))^{(k-1)/k})でバウンドされ、標本サイズ、プライバシー水準、モーメント仮定の間のトレードオフが示される。
  • (α,δ)-近似微分プライバシーの下では、リスクバウンドがO(r²/n + r²(d log(1/δ)/(n²α²))^{(k-1)/k})となり、δに対する対数的ペナルティが生じる。
  • ラプラスノイズを用いたα-微分プライバシーの下では、リスクはO(r²/n + r²(d²/n²α²)^{1/k})に比例し、他の定義と比較して次元d²に強い依存性を示す。
  • プライバシー定義の選択は、ミニマックスリスクの次元依存性に影響を与え、一部の定義は安全性を犠牲にすることでより良いスケーリングを実現する。
  • 適切にスケーリングされたノイズを備えた提案された切り捨て平均推定量は、すべての検討されたプライバシー定義下でミニマックス最適性を達成し、バイアス-バリアンス分解と集中不等式を用いて明示的なリスクバウンドが導出された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。