QUICK REVIEW

[論文レビュー] Differentially Private Testing of Identity and Closeness of Discrete Distributions

Jayadev Acharya, Ziteng Sun|arXiv (Cornell University)|Jan 1, 2018

Privacy-Preserving Technologies in Data被引用数 30

ひとこと要約

本稿は、$(\varepsilon, \delta)$-微分プライバシーの下で、$k$ 個の要素を持つ離散的分布の微分プライベートな同一性検定および近さ検定について、最適な標本複雑度の境界を確立する。非プライベート推定器の低感度性に基づくプライバシー化フレームワークを導入し、カップリングとレ・カムの2点定理を用いたスパース領域における近さ検定のための最初の最適な下界を提供する。

ABSTRACT

We study the fundamental problems of identity testing (goodness of fit), and closeness testing (two sample test) of distributions over $k$ elements, under differential privacy. While the problems have a long history in statistics, finite sample bounds for these problems have only been established recently. In this work, we derive upper and lower bounds on the sample complexity of both the problems under $(\varepsilon, \delta)$-differential privacy. We provide optimal sample complexity algorithms for identity testing problem for all parameter ranges, and the first results for closeness testing. Our closeness testing bounds are optimal in the sparse regime where the number of samples is at most $k$. Our upper bounds are obtained by privatizing non-private estimators for these problems. The non-private estimators are chosen to have small sensitivity. We propose a general framework to establish lower bounds on the sample complexity of statistical tasks under differential privacy. We show a bound on differentially private algorithms in terms of a coupling between the two hypothesis classes we aim to test. By constructing carefully chosen priors over the hypothesis classes, and using Le Cam's two point theorem we provide a general mechanism for proving lower bounds. We believe that the framework can be used to obtain strong lower bounds for other statistical tasks under privacy.

研究の動機と目的

$(\varepsilon, \delta)$-微分プライバシー下で、$k$ 個の要素を持つ離散的分布の微分プライベートな同一性検定の最適な標本複雑度を特定すること。
$(\varepsilon, \delta)$-微分プライバシー下での微分プライベートな近さ検定のための最初の標本複雑度境界を確立すること。
微分プライバシー下での統計的検定における標本複雑度の下界を証明する一般化されたフレームワークを開発すること。
適切に構築された事前分布を用いて、レ・カムの2点定理を応用し、プライバシー制約付きの分布検定におけるタイトな下界を導出できるか。

提案手法

著者たちは、感度が低い非プライベート推定器をプライバシー化することで、同一性検定および近さ検定のための微分プライベートなアルゴリズムを構築する。
仮説クラス間のカップリングに基づく一般化された下界フレームワークを導入し、プライバシー制約付きの検定問題に適用する。
特定の仮説クラス上での事前分布を構築することで、レ・カムの2点定理を用いて情報理論的下界を導出する。
この手法により、標本数が $k$ 以下であるスパース領域において、下界がタイトであることが保証される。
理論的分析では、微分プライバシー制約と統計的仮説検定を組み合わせ、標本複雑度の境界を導出する。

実験結果

リサーチクエスチョン

RQ1$(\varepsilon, \delta)$-微分プライバシー下で、$k$ 個の要素を持つ離散的分布の微分プライベートな同一性検定の最適な標本複雑度は何か？
RQ2$(\varepsilon, \delta)$-微分プライバシー下での微分プライベートな近さ検定の最初の達成可能な標本複雑度境界は何か？
RQ3微分プライバシー下で、標本複雑度の下界を証明する一般化されたフレームワークをどのように構築できるか？
RQ4カップリングに基づく技術とレ・カムの2点定理を組み合わせることで、プライバシー制約付きの分布検定におけるタイトな下界を得られるか？

主な発見

本稿は、$(\varepsilon, \delta)$-微分プライバシー下で、すべてのパrameter範囲において最適な標本複雑度アルゴリズムを提供する。
スパース領域（標本数が $k$ 以下）において、微分プライベートな近さ検定のための最初の標本複雑度境界を確立し、それが最適であることを示す。
提案された下界フレームワークは、仮説クラス上に事前分布を構築し、レ・カムの2点定理を適用することでタイトな境界を導出する。
このフレームワークは、両問題の標本複雑度が、検定対象の2つの分布間のカップリングによって本質的に制約されることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。