QUICK REVIEW

[논문 리뷰] Differentially Private Chi-Squared Hypothesis Testing: Goodness of Fit and Independence Testing

Marco Gaboardi, Hyun Woo Lim|arXiv (Cornell University)|2016. 02. 07.

Privacy-Preserving Technologies in Data참고 문헌 21인용 수 41

한 줄 요약

이 논문은 차별적 비밀보장성 있는 카이제곱 검정을 통해 범주형 자료의 적합도 및 독립성 검정을 제안하며, 엄밀한 유의수준 제어를 보장하는 노이즈 주입 통계량을 사용한다. 몬테카를로 및 점근적 방법을 도입하여 목표 유의수준을 유지하고, 라플라스 노이즈 하에서 샘플 크기의 증가가 미미한 수준에서 고전적 검정에 가까운 검정력 확보를 달성한다.

ABSTRACT

Hypothesis testing is a useful statistical tool in determining whether a given model should be rejected based on a sample from the population. Sample data may contain sensitive information about individuals, such as medical information. Thus it is important to design statistical tests that guarantee the privacy of subjects in the data. In this work, we study hypothesis testing subject to differential privacy, specifically chi-squared tests for goodness of fit for multinomial data and independence between two categorical variables. We propose new tests for goodness of fit and independence testing that like the classical versions can be used to determine whether a given model should be rejected or not, and that additionally can ensure differential privacy. We give both Monte Carlo based hypothesis tests as well as hypothesis tests that more closely follow the classical chi-squared goodness of fit test and the Pearson chi-squared test for independence. Crucially, our tests account for the distribution of the noise that is injected to ensure privacy in determining significance. We show that these tests can be used to achieve desired significance levels, in sharp contrast to direct applications of classical tests to differentially private contingency tables which can result in wildly varying significance levels. Moreover, we study the statistical power of these tests. We empirically show that to achieve the same level of power as the classical non-private tests our new tests need only a relatively modest increase in sample size.

연구 동기 및 목표

개인 정보를 보호하면서 민감한 범주형 자료에 대해 유효한 가설 검정을 수행하는 데 도전한다.
차별적 비밀보장성 처리된 교차표에 고전적 카이제곱 검정을 적용할 경우 예측할 수 없는 유의수준 문제를 해결한다.
차별적 비밀보장성으로 추가된 노이즈의 분포를 고려한 새로운 가설 검정을 개발하여 제1종 오류 제어를 보장한다.
추가된 노이즈에도 불구하고 고전적 비공개 검정과 유사한 검정력을 확보하여 샘플 크기 증가를 최소화한다.
실제 구현에 적합한 계산 효율성이 높은 점근적 검정과 강력한 몬테카를로 기반 대안을 제공한다.

제안 방법

다양한 비밀보장성 확보를 위해 다항 또는 교차표 자료의 관측 빈도에 라플라스 또는 가우시안 노이즈를 주입한다.
노이즈가 주입된 빈도를 기반으로 표준 공식을 적용하여 차별적 비밀보장성 있는 카이제곱 통계량을 구성한다.
몬테카를로 검정(MCGOF 및 MCIndep)의 경우, 귀무가설 하에서 노이즈가 주입된 자료를 사용해 귀무분포를 시뮬레이션하여 p-값을 계산한다.
점근적 검정(PrivGOF 및 PrivIndep)의 경우, 비공개 카이제곱 통계량의 점근적 분포를 자유도 1인 독립된 카이제곱 변수들의 선형 조합으로 유도한다.
R의 'CompQuadForm' 패키지와 Imhof 방법을 사용하여 점근적 분포의 임계값과 p-값을 계산한다.
특히 세포 빈도가 낮을 경우, 비공개 빈도에서 파rameter를 추정하기 위해 이중 최대우도 추정(2MLE) 절차를 적용한다.

실험 결과

연구 질문

RQ1교차표에 노이즈가 주입되었을 때, 차별적 비밀보장성 있는 카이제곱 검정이 목표 유의수준(1−α)을 유지할 수 있는가?
RQ2동일한 비밀보장 예산(ε) 하에서, 차별적 비밀보장성 검정의 통계적 검정력은 고전적 비공개 검정과 비교해 어떻게 되는가?
RQ3노이즈 유형(Laplace 대비 Gaussian)이 비공개 가설 검정의 성능에 어떤 영향을 미치는가?
RQ4비공개 카이제곱 통계량의 점근적 근사가 엄밀한 오류 제어 하에 효과적으로 유의수준 검정에 사용될 수 있는가?
RQ5고전적 검정과 동일한 검정력을 확보하기 위해 비공개 검정에서 얼마나 더 많은 샘플 크기의 증가가 필요한가?

주요 결과

제안된 몬테카를로 및 점근적 검정(MCGOF, PrivGOF, MCIndep, PrivIndep)은 차별적 비밀보장성 하에서도 목표 1−α 유의수준에 매우 가까운 결과를 달성한다.
라플라스 노이즈를 사용할 경우, 약 3,000개 이하의 추가 샘플만으로도 고전적 검정과 유사한 검정력을 확보하며, 예상되는 1/ε 수준의 샘플 크기 증가보다 훨씬 우수한 성능을 보인다.
같은 비밀보장 예산(ε,δ)에서 가우시안 노이즈는 라플라스 노이즈보다 분산이 더 크기 때문에 검정력이 떨어진다.
작은 샘플 크기(예: n=100)에서는 모든 비공개 검정이 1,000회의 시행 동안 귀무가설을 기각하지 못하며, 이는 고전적 검정의 행동과 일치한다.
귀무가설 하에서 비공개 카이제곱 통계량의 점근적 분포는 독립된 χ²(1) 변수들의 선형 조합으로 표현되며, 이는 효율적인 임계값 계산을 가능하게 한다.
정규분포의 이차형식 꼴 꼬리 확률 추정에 R의 Imhof 방법을 사용함으로써 점근적 검정의 정확하고 효율적인 p-값 계산이 가능해진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.