Skip to main content
QUICK REVIEW

[论文解读] CoinPress: Practical Private Mean and Covariance Estimation

Sourav Biswas, Yihe Dong|arXiv (Cornell University)|Jun 11, 2020
Privacy-Preserving Technologies in Data参考文献 22被引用 26
一句话总结

CoinPress 提出了一种实用的差分隐私算法,用于估计多元次高斯数据的均值和协方差,采用基于置信区间的迭代方法,自适应地精炼协方差的椭球边界。该方法在小样本规模下实现了最先进的准确性,匹配理论上的渐近误差界,同时在合成数据和真实世界数据的评估中均优于先前的方法。

ABSTRACT

We present simple differentially private estimators for the mean and covariance of multivariate sub-Gaussian data that are accurate at small sample sizes. We demonstrate the effectiveness of our algorithms both theoretically and empirically using synthetic and real-world datasets -- showing that their asymptotic error rates match the state-of-the-art theoretical bounds, and that they concretely outperform all previous methods. Specifically, previous estimators either have weak empirical accuracy at small sample sizes, perform poorly for multivariate data, or require the user to provide strong a priori estimates for the parameters.

研究动机与目标

  • 设计适用于小样本规模的差分隐私均值和协方差估计器,确保高精度。
  • 解决先前方法在多变量设置下表现不佳或需要强先验参数估计的局限性。
  • 开发一种实用算法,在仅提供最少用户先验信息(如均值或协方差矩阵的宽松边界)的情况下,仍保持高精度。
  • 在合成数据和真实世界数据集上展示该方法的有效性,包括在私有主成分分析(PCA)中的应用。
  • 在集中式差分隐私下,实现次高斯均值和协方差估计的最先进渐近误差率。

提出的方法

  • CoinPress 使用一种迭代精炼策略,围绕真实协方差维持一个椭球形置信区间,通过添加满足 zCDP 的噪声逐步收紧上界。
  • 在每次迭代中,对数据空间进行缩放,使得当前协方差上界变为单位矩阵,从而简化裁剪和噪声添加操作。
  • 在每一步中,应用一种私有的协方差估计器(MVC),该估计器根据当前椭球相对于高斯尾部界限裁剪数据点,然后添加与经验协方差敏感性成比例的零均值高斯噪声。
  • 利用一个引理界定经验协方差的敏感性:若所有数据点在 $–2$-范数上被 $T$ 有界,则弗罗贝尼乌斯敏感性至多为 $\sqrt{2}T/n$。
  • 经过 $O(\log K)$ 次迭代后,其中 $K$ 是真实协方差上下界之间的谱比,算法执行一次最终的朴素裁剪与噪声步骤,生成最终估计。
  • 该方法利用经验协方差和对称高斯矩阵的谱范数的置信区间,确保椭球边界的高概率有效性。

实验结果

研究问题

  • RQ1一种差分隐私均值和协方差估计器是否能在保持小样本规模下实际精度的同时,实现强大的理论误差界?
  • RQ2在多变量设置下,基于置信区间的迭代私有估计方法相较于先前方法的表现如何?
  • RQ3当仅提供关于数据分布的弱先验信息时,该方法在多大程度上仍能保持准确性?
  • RQ4该算法能否有效应用于真实世界数据集,并作为下游任务(如私有主成分分析)的构建模块?
  • RQ5为实现良好性能,该算法对先验知识(如均值或协方差的边界)的最小依赖程度是多少?

主要发现

  • CoinPress 实现了与集中式差分隐私下次高斯均值和协方差估计的最先进理论误差界相匹配的渐近误差率。
  • 在实证评估中,该算法显著优于先前方法,尤其在小样本规模和高维情况下,其误差与非私有估计器相当。
  • 在均值估计方面,当将 Du 等人 [DFM+20] 的单变量方法逐坐标应用于多变量数据时,CoinPress 表现优于该方法。
  • 即使在数据偏离高斯分布时,该方法依然有效,这在重尾合成数据和真实世界数据集的实验中得到验证。
  • 当样本数满足 $n = \tilde{\Omega}\left(\left(\frac{d^{2}}{\alpha^{2}} + \frac{d^{2}}{\alpha\sqrt{\rho}} + \frac{\sqrt{d^{3}\log K}}{\sqrt{\rho}}\right)\log\frac{1}{\beta}\right)$ 时,CoinPress 返回的估计 $\hat{\Sigma}$ 满足 $\|\hat{\Sigma}^{-1/2}\Sigma\hat{\Sigma}^{-1/2} - I\|_{F} \leq \alpha$,且该结果成立的概率至少为 $1 - \beta$。
  • 该算法对弱先验具有鲁棒性:即使对均值或协方差的先验边界非常宽松(如 $R$ 或 $K$ 很大),其性能依然出色。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。