QUICK REVIEW

[論文レビュー] Differentially Private Chi-Squared Hypothesis Testing: Goodness of Fit and Independence Testing

Marco Gaboardi, Hyun Woo Lim|arXiv (Cornell University)|Feb 7, 2016

Privacy-Preserving Technologies in Data参考文献 21被引用数 41

ひとこと要約

本稿では、厳密な有意水準制御を伴うノイズ注入統計量を用いて、カテゴリカルデータにおける適合度および独立性のための微分プライバシー化されたカイ二乗検定を提案する。モンテカルロ法および漸近的手法を導入し、標本サイズのわずかな増加で、目標有意水準を維持するとともに、古典的検定に近い検出力が得られる。特にラプラスノイズ下では顕著な性能を発揮する。

ABSTRACT

Hypothesis testing is a useful statistical tool in determining whether a given model should be rejected based on a sample from the population. Sample data may contain sensitive information about individuals, such as medical information. Thus it is important to design statistical tests that guarantee the privacy of subjects in the data. In this work, we study hypothesis testing subject to differential privacy, specifically chi-squared tests for goodness of fit for multinomial data and independence between two categorical variables. We propose new tests for goodness of fit and independence testing that like the classical versions can be used to determine whether a given model should be rejected or not, and that additionally can ensure differential privacy. We give both Monte Carlo based hypothesis tests as well as hypothesis tests that more closely follow the classical chi-squared goodness of fit test and the Pearson chi-squared test for independence. Crucially, our tests account for the distribution of the noise that is injected to ensure privacy in determining significance. We show that these tests can be used to achieve desired significance levels, in sharp contrast to direct applications of classical tests to differentially private contingency tables which can result in wildly varying significance levels. Moreover, we study the statistical power of these tests. We empirically show that to achieve the same level of power as the classical non-private tests our new tests need only a relatively modest increase in sample size.

研究の動機と目的

個人のプライバシーを保ちながら、感受性の高いカテゴリカルデータに対して有効な仮説検定を実施する課題に取り組む。
微分プライバシー化された連関表に古典的カイ二乗検定を適用した場合に生じる予測不能な有意水準の問題を克服する。
微分プライバシーのためのノイズの分布を考慮に入れた新しい仮説検定を開発し、第一種の誤り（Type I error）の制御を確実にする。
追加のノイズにもかかわらず、古典的非プライベート検定に近い検出力を達成し、標本サイズの膨張を最小限に抑える。
実用的導入を想定し、計算効率の良い漸近的検定と、頑健なモンテカルロベースの代替手法を提供する。

提案手法

マルチノミアル分布または連関表データの観測度数にラプラスまたはガウスノイズを注入することで、微分プライバシーを確保する。
ノイズを注入した度数を用いて、標準的な公式を適用して微分プライバシー化されたカイ二乗統計量を構築する。
モンテカルロ検定（MCGOFおよびMCIndep）では、帰無仮説の下でノイズを含むデータを用いて、ノイズを含むデータを用いて、帰無分布をシミュレートし、p値を計算する。
漸近的検定（PrivGOFおよびPrivIndep）では、プライベート化されたカイ二乗統計量の漸近的分布を、自由度1の独立なカイ二乗分布の線形結合として導出する。
'CompQuadForm' Rパッケージを用い、Imhof法により、漸近的分布の臨界値およびp値を計算する。
特にセル度数が小さい場合に、プライベート度数からパラメータを推定するための2段階最尤推定（2MLE）手順を適用する。

実験結果

リサーチクエスチョン

RQ1連関表にノイズが追加された場合、微分プライバシー化されたカイ二乗検定が、目標有意水準（1−α）を維持できるか。
RQ2同じプライバシー予算（ε）のもとで、微分プライバシー化された検定の検出力は、古典的非プライベート検定と比べてどの程度か。
RQ3ノイズの種別（ラプラス対ガウス）が、プライベート仮説検定の性能に与える影響は何か。
RQ4プライベート化されたカイ二乗統計量の漸近的近似を、厳密な誤差制御のもとで有意水準検定に効果的に応用できるか。
RQ5古典的検定と同等の検出力を達成するため、私的検定でどの程度の追加標本が必要か。

主な発見

提案されたモンテカルロおよび漸近的検定（MCGOF、PrivGOF、MCIndep、PrivIndep）は、微分プライバシー下でも、目標1−αに近い有意水準を達成する。
ラプラスノイズを用いた場合、追加で3,000未満の標本が必要なだけで、古典的検定と同等の検出力を達成でき、予想される1/εの増大とは著しく異なる。
ガウスノイズは、同じプライバシー予算（ε,δ）において、分散が大きいため、ラプラスノイズよりも検出力が低い。
小標本サイズ（例：n=100）では、すべてのプライベート検定が1,000回の試行で帰無仮説を棄却しなかったが、これは古典的検定の挙動と整合的である。
帰無仮説下でのプライベート化されたカイ二乗統計量の漸近的分布は、自由度1の独立なχ²(1)変数の線形結合として表現可能であり、効率的な臨界値計算が可能である。
R言語における正規分布の二次形式の尾部確率推定にImhof法を用いることで、漸近的検定のp値計算が正確かつ効率的に行える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。