[论文解读] Differentially Private Testing of Identity and Closeness of Discrete Distributions
本文在 $(\varepsilon, \delta)$-差分隐私下,为 $k$ 个元素上的离散分布的身份检验与接近性检验建立了最优样本复杂度界。它提出了一种用于隐私化低敏感度非私有估计器的框架,并利用耦合与莱·卡姆两点定理,首次为稀疏区域中的接近性检验提供了最优下界。
We study the fundamental problems of identity testing (goodness of fit), and closeness testing (two sample test) of distributions over $k$ elements, under differential privacy. While the problems have a long history in statistics, finite sample bounds for these problems have only been established recently. In this work, we derive upper and lower bounds on the sample complexity of both the problems under $(\varepsilon, \delta)$-differential privacy. We provide optimal sample complexity algorithms for identity testing problem for all parameter ranges, and the first results for closeness testing. Our closeness testing bounds are optimal in the sparse regime where the number of samples is at most $k$. Our upper bounds are obtained by privatizing non-private estimators for these problems. The non-private estimators are chosen to have small sensitivity. We propose a general framework to establish lower bounds on the sample complexity of statistical tasks under differential privacy. We show a bound on differentially private algorithms in terms of a coupling between the two hypothesis classes we aim to test. By constructing carefully chosen priors over the hypothesis classes, and using Le Cam's two point theorem we provide a general mechanism for proving lower bounds. We believe that the framework can be used to obtain strong lower bounds for other statistical tasks under privacy.
研究动机与目标
- 确定在 $(\varepsilon, \delta)$-差分隐私下,$k$ 个元素上离散分布的身份检验的最优样本复杂度。
- 在 $(\varepsilon, \delta)$-差分隐私下,首次建立不同私有接近性检验的样本复杂度界。
- 开发一个用于差分隐私统计检验中样本复杂度下界证明的一般性框架。
- 通过精心构造的先验分布,将莱·卡姆两点定理应用于推导隐私约束下分布检验的紧致下界。
提出的方法
- 作者通过将低敏感度的非私有估计器进行隐私化,构建了用于身份检验与接近性检验的差分私有算法。
- 他们提出了一种基于假设类之间耦合的一般性下界框架,并将其应用于隐私约束下的检验问题。
- 该框架通过在两个假设类上构造特定先验分布,应用莱·卡姆两点定理,推导出信息论下界。
- 该方法确保在样本数最多为 $k$ 的稀疏区域中,下界是紧致的。
- 理论分析结合了差分隐私约束与统计假设检验,以界定样本复杂度。
实验结果
研究问题
- RQ1在 $(\varepsilon, \delta)$-差分隐私下,$k$ 个元素上离散分布的身份检验的最优样本复杂度是多少?
- RQ2在 $(\varepsilon, \delta)$-差分隐私下,不同私有接近性检验的首个可实现样本复杂度界是什么?
- RQ3如何在差分隐私下构建一个用于样本复杂度下界证明的一般性框架?
- RQ4基于耦合的技术结合莱·卡姆两点定理,能否为隐私约束下的分布检验推导出紧致下界?
主要发现
- 本文在 $(\varepsilon, \delta)$-差分隐私下,为所有参数范围内的身份检验提供了最优样本复杂度算法。
- 它首次建立了不同私有接近性检验的样本复杂度界,且在样本数最多为 $k$ 的稀疏区域中为最优。
- 所提出的下界框架通过在假设类上构造先验分布并应用莱·卡姆两点定理,得出了紧致界。
- 该框架表明,这两个问题的样本复杂度从根本上受到所测试两个分布之间耦合关系的约束。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。