QUICK REVIEW

[论文解读] Private Approximations of the 2nd-Moment Matrix Using Existing Techniques in Linear Regression

Or Sheffet|arXiv (Cornell University)|Jun 30, 2015

Privacy-Preserving Technologies in Data参考文献 26被引用 18

一句话总结

本文提出了三种用于近似线性回归中二阶矩矩阵的差分隐私算法，保证矩阵为正定——这与先前的方法（如 Analyze Gauss）不同。这些技术利用了现有的回归框架：通过 Johnson-Lindenstrauss 变换的岭回归、基于 Wishart 分布的加性随机噪声，以及使用逆 Wishart 先验的贝叶斯后验抽样——每种方法均在保持强实用性的同时，确保 $(\epsilon,\delta)$-差分隐私，并通过理论和实证验证得到支持。

ABSTRACT

We introduce three differentially-private algorithms that approximates the 2nd-moment matrix of the data. These algorithm, which in contrast to existing algorithms output positive-definite matrices, correspond to existing techniques in linear regression literature. Specifically, we discuss the following three techniques. (i) For Ridge Regression, we propose setting the regularization coefficient so that by approximating the solution using Johnson-Lindenstrauss transform we preserve privacy. (ii) We show that adding a small batch of random samples to our data preserves differential privacy. (iii) We show that sampling the 2nd-moment matrix from a Bayesian posterior inverse-Wishart distribution is differentially private provided the prior is set correctly. We also evaluate our techniques experimentally and compare them to the existing "Analyze Gauss" algorithm of Dwork et al.

研究动机与目标

解决现有差分隐私线性回归方法在多变量回归问题中因噪声累积过多而难以高效扩展的局限性。
开发对二阶矩矩阵的差分隐私近似，确保其为正定矩阵，避免在核方法或统计推断等下游应用中出现的问题。
表明标准回归技术在适当参数化下可产生差分隐私算法，而无需设计新算法。
在理论和实证层面将所提方法与 Analyze Gauss 算法进行比较，后者缺乏正定性保障。

提出的方法

对数据应用 Johnson-Lindenstrauss (JL) 变换，并设置正则化系数 $ w $ 以确保 $(\epsilon,\delta)$-差分隐私，通过 $ \ell_2 $-正则化将此与岭回归联系起来。
向数据矩阵添加少量独立同分布的高斯样本（i.i.d.），以保护差分隐私，利用此类扰动可掩盖个体贡献的事实。
使用逆 Wishart 先验从贝叶斯后验中抽样二阶矩矩阵，通过调节先验超参数以确保差分隐私。
通过敏感性分析和集中不等式建立隐私保障，特别是利用随机矩阵理论（如 Wigner 半圆律、卡方尾部界）来界定奇异值和范数。
使用 Woodbury 公式分析真实与扰动后逆 Gram 矩阵之间的差异，推导回归系数误差的界。
推导估计回归系数 $ \widehat{\bm{\beta}} $ 和 $ \widetilde{\bm{\beta}} $ 的高概率误差界，表明 $ \|\widehat{\bm{\beta}} - \widetilde{\bm{\beta}}\| \leq \frac{1}{C-1}\|\widehat{\bm{\beta}}\| + \text{低阶项} $。

实验结果

研究问题

RQ1现有线性回归技术在适当参数化下是否可被调整以生成二阶矩矩阵的差分隐私近似？
RQ2如何在保证输出矩阵为正定（许多下游应用的关键要求）的同时维持差分隐私？
RQ3在回归系数误差方面，使用 JL 变换结合正则化与添加 Wishart 噪声或使用贝叶斯先验相比，其效用权衡如何？
RQ4所提方法在隐私保障、正定性及实证性能方面与 Analyze Gauss 算法相比如何？

主要发现

当正则化参数 $ w $ 基于数据的最小奇异值设定时，基于 JL 变换的方法可确保 $(\epsilon,\delta)$-差分隐私，相比先前工作通过消除 $ \log r $ 因子改进了界。
向数据添加少量独立同分布的高斯样本可保护差分隐私，并生成正定的二阶矩矩阵，其效用通过测度集中性得到界定。
当先验选择适当时，从贝叶斯逆 Wishart 后验中抽样二阶矩矩阵是差分私有的，误差界通过 Woodbury 恒等式和随机矩阵理论推导得出。
理论分析表明，估计回归系数的误差被限制在 $ \frac{1}{C-1}\|\widehat{\bm{\beta}}\| + \mathcal{O}(\sigma^2 \sqrt{kp \log(1/\nu)}) $ 以内，其中 $ C $ 依赖于数据的奇异值和噪声参数。
实证评估证实，所有三种所提方法在回归精度和正定性方面均优于 Analyze Gauss 算法，即使在投影到正定锥后依然如此。
本文表明，通过在成熟回归框架中调节参数即可实现差分隐私，而无需设计新型算法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。