Skip to main content
QUICK REVIEW

[论文解读] Differentially Private Empirical Risk Minimization

Kamalika Chaudhuri, Claire Monteleoni|arXiv (Cornell University)|Dec 1, 2009
Privacy-Preserving Technologies in Data参考文献 31被引用 544
一句话总结

本文提出目标扰动(objective perturbation),一种用于机器学习中经验风险最小化(ERM)的新型差分隐私方法,该方法在优化前向目标函数添加噪声。与以往的输出扰动方法相比,该方法在正则化逻辑回归和SVM上实现了更优的隐私-效用权衡,具有理论保证,并在真实数据集上得到实证验证。

ABSTRACT

Privacy-preserving machine learning algorithms are crucial for the increasingly common setting in which personal data, such as medical or financial records, are analyzed. We provide general techniques to produce privacy-preserving approximations of classifiers learned via (regularized) empirical risk minimization (ERM). These algorithms are private under the $ε$-differential privacy definition due to Dwork et al. (2006). First we apply the output perturbation ideas of Dwork et al. (2006), to ERM classification. Then we propose a new method, objective perturbation, for privacy-preserving machine learning algorithm design. This method entails perturbing the objective function before optimizing over classifiers. If the loss and regularizer satisfy certain convexity and differentiability criteria, we prove theoretical results showing that our algorithms preserve privacy, and provide generalization bounds for linear and nonlinear kernels. We further present a privacy-preserving technique for tuning the parameters in general machine learning algorithms, thereby providing end-to-end privacy guarantees for the training process. We apply these results to produce privacy-preserving analogues of regularized logistic regression and support vector machines. We obtain encouraging results from evaluating their performance on real demographic and benchmark data sets. Our results show that both theoretically and empirically, objective perturbation is superior to the previous state-of-the-art, output perturbation, in managing the inherent tradeoff between privacy and learning performance.

研究动机与目标

  • 开发能够为敏感数据提供 $ε$-差分隐私保证的隐私保护机器学习算法。
  • 解决现有输出扰动方法在隐私与模型效用之间权衡方面的局限性。
  • 设计一种新方法——目标扰动,即在优化前对损失函数和正则化项进行扰动。
  • 提供端到端的隐私保证,包括机器学习流水线中超参数调优阶段的隐私保护。
  • 在理论和实践层面均证明目标扰动相较于输出扰动具有更优的性能。

提出的方法

  • 提出目标扰动:在优化前向正则化ERM目标函数添加噪声。
  • 要求损失函数和正则化项可微,且正则化项为强凸函数,以获得理论保证。
  • 根据目标函数对单个数据点的敏感性来确定噪声缩放系数。
  • 采用随机响应机制,确保输出满足 $ε$-差分隐私。
  • 通过在优化阶段而非优化后注入噪声,降低隐私-效用权衡。
  • 采用核近似技术(如Rahimi和Recht, 2008b)将方法扩展至非线性核方法。

实验结果

研究问题

  • RQ1我们能否设计一种差分隐私ERM算法,使其在效用方面优于现有输出扰动方法?
  • RQ2在损失函数和正则化项满足何种条件下,目标扰动能保持隐私性并维持良好的泛化性能?
  • RQ3在分类准确率和隐私预算方面,目标扰动与输出扰动相比在实证上表现如何?
  • RQ4目标扰动能否在保持统计效率的前提下扩展至非线性核方法?
  • RQ5在目标扰动下,差分隐私ERM的泛化误差存在哪些理论界?

主要发现

  • 在相同隐私预算下,目标扰动的泛化界优于输出扰动,尤其当正则化项为强凸函数时。
  • 理论分析表明,当损失函数和正则化项满足可微性和凸性条件时,目标扰动能提供 $ε$-差分隐私。
  • 在人口统计和基准数据集上的实证结果表明,目标扰动在分类准确率方面优于输出扰动。
  • 对于非线性核,该方法依赖于通过随机特征进行线性化,尽管可能存在统计效率不足的问题,但在足够多数据下仍具有效性。
  • 通过在整个训练流水线中应用相同的隐私机制,该方法提供了端到端的隐私保证,包括超参数调优阶段。
  • 论文指出 $L_1$-正则化ERM 是一个局限,因为目标扰动不适用(因缺乏强凸性),该问题仍为开放问题。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。