[论文解读] Learning from Mixtures of Private and Public Populations
本文提出了一种新颖的学习模型,其中数据来自私人(敏感)和公共(非敏感)子群体的混合,且仅对私人部分施加隐私约束。研究表明,即使隐私状态与标签相关,仍可在 ℝᵈ 中以接近非私有 PAC 学习的样本复杂度学习线性分类器——这是通过利用私人与公共数据分布之间的结构性差异实现的。
We initiate the study of a new model of supervised learning under privacy constraints. Imagine a medical study where a dataset is sampled from a population of both healthy and unhealthy individuals. Suppose healthy individuals have no privacy concerns (in such case, we call their data public) while the unhealthy individuals desire stringent privacy protection for their data. In this example, the population (data distribution) is a mixture of private (unhealthy) and public (healthy) sub-populations that could be very different. Inspired by the above example, we consider a model in which the population $\mathcal{D}$ is a mixture of two sub-populations: a private sub-population $\mathcal{D}_{\sf priv}$ of private and sensitive data, and a public sub-population $\mathcal{D}_{\sf pub}$ of data with no privacy concerns. Each example drawn from $\mathcal{D}$ is assumed to contain a privacy-status bit that indicates whether the example is private or public. The goal is to design a learning algorithm that satisfies differential privacy only with respect to the private examples. Prior works in this context assumed a homogeneous population where private and public data arise from the same distribution, and in particular designed solutions which exploit this assumption. We demonstrate how to circumvent this assumption by considering, as a case study, the problem of learning linear classifiers in $\mathbb{R}^d$. We show that in the case where the privacy status is correlated with the target label (as in the above example), linear classifiers in $\mathbb{R}^d$ can be learned, in the agnostic as well as the realizable setting, with sample complexity which is comparable to that of the classical (non-private) PAC-learning. It is known that this task is impossible if all the data is considered private.
研究动机与目标
- 解决从混合私人与公共数据分布中学习的挑战,其中隐私约束仅适用于敏感数据。
- 克服先前研究中假设私人与公共数据分布同质的局限性。
- 设计一种学习算法,仅对私人样本满足差分隐私,同时实现接近非私有学习的样本复杂度。
- 研究在此新模型下,线性分类器在对抗性和可实现设置中是否可高效学习。
提出的方法
- 该模型假设数据分布 𝒟 是两个子群体的混合:𝒟_priv(私人,敏感)和 𝒟_pub(公共,非敏感),并包含一个隐私状态位以指示数据来源。
- 学习算法仅需对来自 𝒟_priv 的样本满足差分隐私,而无需对 𝒟_pub 的样本满足。
- 该方法利用 𝒟_priv 与 𝒟_pub 之间的结构性差异,特别是在隐私状态与目标标签相关时。
- 它采用对抗性和可实现 PAC 学习的技术,并针对混合分布进行调整,将公共数据视为非私有,而将私人数据置于差分隐私保护之下。
- 分析表明,即使私人与公共数据来自不同分布,样本复杂度仍与经典 PAC 学习相当。
- 该方法避免依赖于先前工作中常见的私人与公共数据分布相同的假设。
实验结果
研究问题
- RQ1当数据由具有不同基础分布的私人与公共子群体混合组成时,能否高效学习线性分类器?
- RQ2当隐私约束仅适用于数据子集(即私人子群体)时,差分隐私下学习的样本复杂度是多少?
- RQ3隐私状态与目标标签之间的相关性如何影响此混合模型中私有学习的可行性与效率?
- RQ4在此设置下,是否可能实现接近非私有 PAC 学习的样本复杂度,即使存在私人数据?
- RQ5现有私有学习技术能否被适配以利用私人与公共数据之间的差异,当两者分布不同时?
主要发现
- 所提出的模型即使在私人与公共数据来自不同分布时,也能以接近经典非私有 PAC 学习的样本复杂度,在 ℝᵈ 中学习线性分类器。
- 该方法通过利用私人与公共数据之间的差异实现此目标,避免了先前工作中常见的同质分布假设。
- 关键结果是,即使隐私状态与目标标签相关,仅对私人子群体应用差分隐私仍可实现学习。
- 这与所有数据均被视为私有时的不可能性结果形成对比,凸显了区分私人与公共数据源的优势。
- 分析证实,在新模型下,对抗性和可实现设置中的样本复杂度均保持高效。
- 该方法表明,只要适当地利用数据混合结构,可选择性地对敏感数据施加隐私约束,而不会显著增加样本复杂度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。