Skip to main content
QUICK REVIEW

[论文解读] What Can We Learn Privately?

Shiva Prasad Kasiviswanathan, Homin K. Lee|arXiv (Cornell University)|Mar 6, 2008
Privacy-Preserving Technologies in Data参考文献 49被引用 46
一句话总结

本文研究了使用差分隐私进行私有机器学习的可行性,表明任何在样本复杂度上为多项式的概念类,都可以通过仅使样本数量对数增长的方式实现私有学习。它建立了本地私有学习与统计查询(SQ)模型之间的紧密联系,证明本地算法等价于SQ学习,并展示了交互式与非交互式本地学习之间的分离,揭示了非交互式方法的根本局限性。

ABSTRACT

Learning problems form an important category of computational tasks that generalizes many of the computations researchers apply to large real-life data sets. We ask: what concept classes can be learned privately, namely, by an algorithm whose output does not depend too heavily on any one input or specific training example? More precisely, we investigate learning algorithms that satisfy differential privacy, a notion that provides strong confidentiality guarantees in contexts where aggregate information is released about a database containing sensitive information about individuals. We demonstrate that, ignoring computational constraints, it is possible to privately agnostically learn any concept class using a sample size approximately logarithmic in the cardinality of the concept class. Therefore, almost anything learnable is learnable privately: specifically, if a concept class is learnable by a (non-private) algorithm with polynomial sample complexity and output size, then it can be learned privately using a polynomial number of samples. We also present a computationally efficient private PAC learner for the class of parity functions. Local (or randomized response) algorithms are a practical class of private algorithms that have received extensive investigation. We provide a precise characterization of local private learning algorithms. We show that a concept class is learnable by a local algorithm if and only if it is learnable in the statistical query (SQ) model. Finally, we present a separation between the power of interactive and noninteractive local learning algorithms.

研究动机与目标

  • 确定哪些概念类可以使用保持差分隐私的算法进行学习,确保单个数据点不会对输出产生过度影响。
  • 理解在差分隐私约束下,样本复杂度、计算时间与交互性之间的权衡。
  • 刻画本地(随机响应)私有学习算法的能力,并将其与已知模型(如统计查询(SQ)模型)关联起来。
  • 研究交互式与非交互式本地学习之间的分离,揭示非交互式方法的根本局限性。
  • 证明即使在强隐私保证下,私有学习也几乎与非私有学习一样强大。

提出的方法

  • 使用差分隐私作为正式的隐私保证,确保学习算法的输出对任何单个训练样本不敏感。
  • 采用基于样本的学习框架,学习者从由目标概念标记的分布中访问独立同分布的样本,隐私通过随机响应或类似机制实现。
  • 证明在非私有PAC模型中样本复杂度为多项式的所有概念类,都可以通过相对于概念类大小仅对数增长的样本量实现私有学习。
  • 通过内积分析和正交函数展开,证明本地私有学习算法可被表征为等价于统计查询(SQ)模型中的学习。
  • 基于内积集中性的概率论证,表明对于大多数随机查询,预言机响应无法依赖于隐藏参数,从而在不了解敏感变量的情况下实现模拟。
  • 使用混合论证和对查询的联合界,证明非交互式本地学习无法在遮蔽奇偶性问题上实现常数误差,从而与交互式方法形成分离。

实验结果

研究问题

  • RQ1所有在非私有PAC模型中可学习的概念类,是否都可以通过仅小幅增加样本量的方式实现私有学习?
  • RQ2本地(随机响应)私有学习与统计查询(SQ)模型之间存在何种关系?
  • RQ3是否存在交互式与非交互式本地学习算法能力之间的可证明分离?
  • RQ4能否为如奇偶函数等困难概念类实现计算高效的私有学习?
  • RQ5差分隐私如何影响在敏感数据存在下的学习算法的样本复杂度与计算效率?

主要发现

  • 在非私有PAC模型中样本复杂度为多项式的所有概念类,都可以通过相对于概念类大小对数增长的样本量实现私有学习。
  • 对于奇偶函数类,存在一个计算高效的私有PAC学习者,表明即使在随机分类噪声下被认为困难的问题,私有学习也是可行的。
  • 本地私有学习算法与统计查询(SQ)模型中的算法能力完全相当:一个概念类可被本地学习当且仅当它可被SQ学习。
  • 交互式与非交互式本地学习之间存在可证明的分离:非交互式算法无法以常数误差学习某些类(如遮蔽奇偶性),而交互式算法可以。
  • 非交互式本地学习者在遮蔽奇偶性问题上成功的概率与1有明显差距,错误概率的下界至少为 1/2(1 - t/2^{d/3+2}),表明非交互式方法存在固有局限性。
  • 分析表明,对于大多数随机查询,预言机响应无法依赖于隐藏参数,这使得在1/2^{d/3}的容差阈值下,无需了解敏感数据即可实现私有预言机的模拟。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。