[论文解读] Test without Trust: Optimal Locally Private Distribution Testing
本文提出 Raptor,一种新颖的公共随机性本地差分隐私机制,每位用户仅需发送一位数据,即可实现均匀性与独立性检测的最优样本复杂度。该研究建立了紧致的样本复杂度界限,表明公共随机性机制(如 Raptor)可实现最优性能,而现有私有随机性机制(例如 RAPPOR、哈达玛响应)由于其固有局限性,需显著更多的样本。
We study the problem of distribution testing when the samples can only be accessed using a locally differentially private mechanism and focus on two representative testing questions of identity (goodness-of-fit) and independence testing for discrete distributions. We are concerned with two settings: First, when we insist on using an already deployed, general-purpose locally differentially private mechanism such as the popular RAPPOR or the recently introduced Hadamard Response for collecting data, and must build our tests based on the data collected via this mechanism; and second, when no such restriction is imposed, and we can design a bespoke mechanism specifically for testing. For the latter purpose, we introduce the Randomized Aggregated Private Testing Optimal Response (RAPTOR) mechanism which is remarkably simple and requires only one bit of communication per sample. We propose tests based on these mechanisms and analyze their sample complexities. Each proposed test can be implemented efficiently. In each case (barring one), we complement our performance bounds for algorithms with information-theoretic lower bounds and establish sample optimality of our proposed algorithm. A peculiar feature that emerges is that our sample-optimal algorithm based on RAPTOR uses public-coins, and any test based on RAPPOR or Hadamard Response, which are both private-coin mechanisms, requires significantly more samples.
研究动机与目标
- 设计一种本地差分隐私机制,以在高隐私约束下实现分布测试的最优样本复杂度。
- 解决现有 LDP 机制(例如 RAPPOR、哈达玛响应)与分布测试中最优性能之间的差距。
- 开发一种新机制 Raptor,利用公共随机性,并在均匀性与独立性检测中实现样本最优性能。
- 建立信息论下界,证明所提算法的最优性。
提出的方法
- 提出 Raptor,一种公共随机性本地私有机制,每位用户仅发送一位,指示其数据是否属于一个公开已知的域随机子集。
- 在双变量情况下,使用参数为 $\varepsilon/3$ 的随机响应,以确保 3 位联合指示器的 $\varepsilon$-本地差分隐私。
- 通过多次独立试验中的中位数技巧,将成功概率提升至 $2/3$。
- 对扰动后的联合概率应用集中不等式,以检测与均匀性或独立性的偏离。
- 应用联合概率扰动集中定理(定理 28),将总变差距离与可观测子集频率关联起来。
- 通过归约为均匀性测试建立下界,表明在 $[k] \times [k]$ 上,独立性测试至少与均匀性测试一样困难。
实验结果
研究问题
- RQ1我们能否设计一种本地私有机制,在 $\varepsilon$-本地差分隐私下实现分布测试的最优样本复杂度?
- RQ2为何私有随机性机制(如 RAPPOR 和哈达玛响应)在相同测试任务下所需样本数远多于公共随机性机制?
- RQ3通用 LDP 机制与专用优化机制在分布测试中是否存在根本性能差距?
- RQ4我们能否证明与所提算法上界匹配的信息论下界?
- RQ5本地私有独立性测试的最优样本复杂度是多少?其与均匀性测试有何关联?
主要发现
- Raptor 在 $[k] \times [k]$ 上实现独立性测试的样本复杂度为 $O\left(\frac{k^2}{\gamma^2 \varepsilon^2}\right)$,这是信息论上最优的。
- Raptor 的样本复杂度与 $\Omega\left(\frac{k^2}{\gamma^2 \varepsilon^2}\right)$ 下界完全匹配,证明其在 $\varepsilon \in (0,1]$ 下的最优性。
- 由于缺乏公共随机性,RAPPOR 和哈达玛响应等私有随机性机制所需样本数远多于 Raptor。
- 本文证明,本地私有独立性测试至少与 $[k] \times [k]$ 上的本地私有均匀性测试一样困难,建立了 $\Omega\left(\frac{k^2}{\gamma^2 \varepsilon^2}\right)$ 的下界。
- 一项关键技术贡献是定理 28,该定理建立了在随机子集采样下联合概率扰动的集中性,从而支持基于子集的估计器分析。
- 本文证明,任何用于独立性测试的 $\varepsilon$-LDP 机制都必须使用 $\Omega\left(\frac{k^2}{\gamma^2 \varepsilon^2}\right)$ 个样本,从而确认了 Raptor 的最优性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。