QUICK REVIEW

[论文解读] Privately Learning High-Dimensional Distributions

Gautam Kamath, Jerry Li|arXiv (Cornell University)|May 1, 2018

Privacy-Preserving Technologies in Data参考文献 55被引用 30

一句话总结

本文提出了一种计算高效的差分隐私算法，用于在总变差距离下学习高维分布——特别是多变量正态分布和布尔超立方体上的乘积分布。主要贡献是一种称为递归差分隐私预处理的新技术，该技术消除了对参数强先验界的需求，在广泛参数范围内实现了几乎与非私有最优学习器相当的样本复杂度。

ABSTRACT

We present novel, computationally efficient, and differentially private algorithms for two fundamental high-dimensional learning problems: learning a multivariate Gaussian and learning a product distribution over the Boolean hypercube in total variation distance. The sample complexity of our algorithms nearly matches the sample complexity of the optimal non-private learners for these tasks in a wide range of parameters, showing that privacy comes essentially for free for these problems. In particular, in contrast to previous approaches, our algorithm for learning Gaussians does not require strong a priori bounds on the range of the parameters. Our algorithms introduce a novel technical approach to reducing the sensitivity of the estimation procedure that we call recursive private preconditioning.

研究动机与目标

解决在避免对参数（如均值和协方差）施加强先验界的情况下，私有化学习高维分布的挑战。
开发用于估计多变量正态分布和布尔超立方体上乘积分布的计算高效差分隐私算法。
实现几乎与最优非私有学习算法相当的样本复杂度，表明在此设置下隐私带来的代价极小。
克服先前方法的局限性，这些方法对参数范围存在多项式依赖，或在高维下出现指数级运行时间。

提出的方法

提出递归差分隐私预处理，一种新颖技术，通过迭代改进协方差矩阵的条件数来降低估计过程的敏感性。
将此预处理应用于正态分布均值和协方差估计，实现在无需事先了解参数界的情况下进行私有学习。
设计一种私有乘积分布估计器，通过将超立方体划分为若干区域，并在每个区域应用私有估计，采用递归策略控制误差累积。
利用大数定律和耦合论证，在弱假设下证明差分隐私和准确性的保证。
在分析中使用矩生成函数和二项式耦合来界定隐私损失，特别是在高维估计的背景下。
通过递归精炼预处理器，将私有估计与参数不确定性的鲁棒性相结合，从而在每一步降低敏感性。

实验结果

研究问题

RQ1差分隐私算法在高维分布学习中能否实现接近非私有最优学习器的样本复杂度？
RQ2如何在不依赖对均值和协方差的强先验界的情况下，实现多变量正态分布估计的差分隐私？
RQ3哪些技术可用于在保持计算效率和隐私性的同时，降低高维估计中的敏感性？
RQ4能否实现布尔超立方体上乘积分布的私有学习，且其准确性可与非私有方法相媲美？
RQ5高维下私有分布估计的根本限制是什么？与所提算法相比如何？

主要发现

所提出的多变量正态分布学习算法即使在缺乏对均值和协方差的强先验界时，其样本复杂度也几乎与最优非私有学习器相当。
递归差分隐私预处理使高维正态分布的私有估计成为可能，样本复杂度呈 $ O(d^2 / ilde{ u}^2) $ 的量级，其中 $ ilde{ u} $ 是总变差距离下的期望精度。
对于布尔超立方体上的乘积分布，该算法实现了私有学习，其样本复杂度在对数因子内匹配非私有最优界。
分析表明，隐私仅带来极小的乘法样本复杂度额外开销，表明在此类设置中隐私可“基本免费”获得。
下界分析证实，所提算法的样本复杂度几乎最优，其与理论极限仅相差对数因子。
递归差分隐私预处理技术具有可扩展性，为高维私有估计提供了超越正态分布和乘积分布的新框架。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。