[论文解读] Learning in a Large Function Space: Privacy-Preserving Mechanisms for SVM Learning
本文提出了一种针对大函数空间中支持向量机(SVM)学习的高效、差分隐私机制,利用随机再生核希尔伯特空间(RKHS)实现即使在无限维核函数下也能对分类器进行有限编码。通过正则化经验风险最小化的光滑性建立高概率逐点实用性的理论保证,并基于算法稳定性证明差分隐私,同时推导出下界,表明在小隐私参数下,高度准确的SVM机制无法实现强隐私保护。
Several recent studies in privacy-preserving learning have considered the trade-off between utility or risk and the level of differential privacy guaranteed by mechanisms for statistical query processing. In this paper we study this trade-off in private Support Vector Machine (SVM) learning. We present two efficient mechanisms, one for the case of finite-dimensional feature mappings and one for potentially infinite-dimensional feature mappings with translation-invariant kernels. For the case of translation-invariant kernels, the proposed mechanism minimizes regularized empirical risk in a random Reproducing Kernel Hilbert Space whose kernel uniformly approximates the desired kernel with high probability. This technique, borrowed from large-scale learning, allows the mechanism to respond with a finite encoding of the classifier, even when the function class is of infinite VC dimension. Differential privacy is established using a proof technique from algorithmic stability. Utility--the mechanism's response function is pointwise epsilon-close to non-private SVM with probability 1-delta--is proven by appealing to the smoothness of regularized empirical risk minimization with respect to small perturbations to the feature mapping. We conclude with a lower bound on the optimal differential privacy of the SVM. This negative result states that for any delta, no mechanism can be simultaneously (epsilon,delta)-useful and beta-differentially private for small epsilon and small beta.
研究动机与目标
- 解决在大或无限维函数空间中SVM学习实现高实用性和差分隐私的挑战。
- 开发高效、实用的机制,实现最大间隔分类器的私有学习,同时保持高精度。
- 在平移不变核的SVM背景下,建立差分隐私与实用性的理论保证。
- 为铰链损失SVM提供最优差分隐私的上下界,揭示隐私-精度权衡的根本限制。
- 探讨算法稳定性在证明复杂函数空间学习算法隐私性中的作用。
提出的方法
- 通过将目标核映射到傅里叶域并采样随机特征,构建随机RKHS,以高概率一致近似原始核。
- 在随机RKHS中执行正则化经验风险最小化(RERM),获得有限维、具有隐私保护特性的分类器表示。
- 通过RERM的算法稳定性证明差分隐私,表明训练数据的微小变化仅导致分类器函数的微小变化。
- 通过证明RERM响应在高概率(1−δ)下与非私有SVM分类器逐点ϵ接近,建立实用性,利用RERM在核扰动下的光滑性。
- 通过邻近数据库上的打包论证推导最优差分隐私的下界,表明高实用性意味着在小β参数下隐私保护受限。
- 将这些技术专门应用于RBF核和铰链损失SVM,推导出隐私损失关于核方差σ的显式边界。
实验结果
研究问题
- RQ1如何设计在无限维函数空间中SVM学习的高效、差分隐私机制?
- RQ2对于铰链损失SVM,任何(ϵ, δ)-有用的机制所能达到的最优差分隐私水平是什么?
- RQ3我们能否在不牺牲强隐私保证的前提下,实现私有SVM学习的高实用性?
- RQ4正则化经验风险最小化在核扰动下的光滑性如何促进私有学习中的实用性?
- RQ5在私有SVM学习中,特别是对于小方差的RBF核,隐私-实用性权衡的根本限制是什么?
主要发现
- 所提出的平移不变核机制通过在随机RKHS中学习,以高概率实现(ϵ, δ)-实用性,该随机RKHS能一致近似目标核。
- 差分隐私通过正则化经验风险最小化的算法稳定性建立,而非全局敏感性,为私有学习提供了一种新颖的证明技术。
- 通过证明分类器响应在高概率下与非私有SVM分类器逐点ϵ接近,建立实用性。
- 通过利用随机特征近似,即使在函数空间VC维无限的情况下,该机制也能实现分类器的有限编码。
- 最优差分隐私的下界表明,在特定条件下,任何机制都无法同时实现(ϵ, δ)-实用性与β-差分隐私,尤其当ϵ和β较小时。
- 对于具有RBF核的铰链损失SVM,最优差分隐私的下界为log((1−δ)(N−1)/δ),其中N = ⌊2/(σ√(2 log 2))⌋,表明小σ会导致高精度机制的隐私保证较差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。