[论文解读] Differentially Private Release and Learning of Threshold Functions
本文建立了对有限与无限域上阈值函数差分隐私发布问题的首个非平凡样本复杂度下界,表明其样本复杂度至少为 Ω(log* |X|),且随数据域大小增长而增长。论文提出了一种新颖的递归构造方法用于内点问题,并利用该方法证明了不可能性结果,同时提出了一种新算法,其样本复杂度为 2^(1+o(1)) log* |X|,优于先前的上界,从而弥合了与上界之间的差距。
We initiate the study of the randomness complexity of differential privacy, i.e., how many random bits an algorithm needs in order to generate accurate differentially private releases. As a test case, we focus on the task of releasing the results of d counting queries, or equivalently all one-way marginals on a d-dimensional dataset with boolean attributes. While standard differentially private mechanisms for this task have randomness complexity that grows linearly with d, we show that, surprisingly, only log₂ d+O(1) random bits (in expectation) suffice to achieve an error that depends polynomially on d (and is independent of the size n of the dataset), and furthermore this is possible with pure, unbounded differential privacy and privacy-loss parameter ε = 1/poly(d). Conversely, we show that at least log₂ d-O(1) random bits are also necessary for nontrivial accuracy, even with approximate, bounded DP, provided the privacy-loss parameters satisfy ε,δ ≤ 1/poly(d). We obtain our results by establishing a close connection between the randomness complexity of differentially private mechanisms and the geometric notion of "deterministic rounding schemes" recently introduced and studied by Vander Woude et al. (2022, 2023).
研究动机与目标
- 建立有限与无限域上阈值函数差分隐私发布问题的紧致样本复杂度边界。
- 解决在无限数据宇宙(如 ℕ 或 [0,1])上是否可实现阈值函数发布的开放问题。
- 为差分隐私中无界域问题的不可能性结果证明开发新方法。
- 改进阈值函数发布与学习的样本复杂度上界,将其从 8(1+o(1)) log* |X| 降低至 2^(1+o(1)) log* |X|。
- 将结果扩展至正确PAC学习与Kolmogorov距离下的分布学习,首次揭示私有与非私有样本复杂度之间的分离。
提出的方法
- 引入无支配点问题作为内点问题的松弛形式,证明在无限域上存在不可能性。
- 通过T有界机制与域截断至有限集Xd,利用递归构造方法界定内点问题的样本复杂度。
- 将阈值函数发布与学习问题约化至内点问题,实现下界转移。
- 基于假设集与差分隐私约束,利用打包论证方法,证明对可数假设类的点函数,纯差分隐私下学习存在不可能性。
- 应用指纹码与分布分析,构造使任何差分隐私机制产生高误差的困难输入分布。
- 实现一种递归分层机制用于阈值函数发布,通过自适应噪声与域划分实现改进的样本复杂度。
实验结果
研究问题
- RQ1是否可能在无限数据宇宙(如 ℕ 或 [0,1])上实现阈值函数的差分隐私发布?
- RQ2差分隐私发布阈值函数所需的精确样本复杂度是多少?其随 |X| 的增长规律如何?
- RQ3能否将阈值函数私有学习的样本复杂度改进至超过先前上界 8(1+o(1)) log* |X| 的水平?
- RQ4在 (ε,δ)-差分隐私下,正确PAC学习阈值函数是否需要随域大小增长的样本复杂度?
- RQ5能否在纯 ε-差分隐私下,使用可数假设类实现对无限域上点函数的私有学习?
主要发现
- 差分隐私发布阈值函数的样本复杂度至少为 Ω(log* |X|),证明在如 ℕ 或 [0,1] 等无限域上不可能实现。
- 本文提出一种新的差分隐私算法用于阈值函数发布,其样本复杂度为 2^(1+o(1)) log* |X|,优于先前的上界 8(1+o(1)) log* |X|。
- 阈值函数发布问题的下界首次揭示了使用 (ε,δ)-差分隐私与不使用隐私保护时,学习概念类的样本复杂度之间存在分离。
- 对于 ℓ 维中正确学习阈值函数,样本复杂度下界扩展为 n ≥ Ω(ℓ · log* |X|)。
- 本文证明,在无限域上,无法使用可数假设类通过纯 ε-差分隐私学习点函数,从而解决了该开放问题。
- 结果可扩展至基于Kolmogorov距离的私有分布学习,表明在差分隐私下样本复杂度必须随 |X| 增长。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。