[论文解读] Learning with Differential Privacy: Stability, Learnability and the Sufficiency and Necessity of ERM Principle
本文证明,在Vapnik的一般学习框架下,一个学习问题在微差隐私下可私密学习当且仅当存在一个渐近最小化经验风险(AERM)的微差隐私算法。研究证明,尽管AERM对于非私密学习并不充分,但它是私密学习的必要且充分条件,从而实现了对一致私密学习算法的通用构造,并为一大类问题提供了最优收敛速率的一般性私密学习框架。
While machine learning has proven to be a powerful data-driven solution to many real-life problems, its use in sensitive domains has been limited due to privacy concerns. A popular approach known as **differential privacy** offers provable privacy guarantees, but it is often observed in practice that it could substantially hamper learning accuracy. In this paper we study the learnability (whether a problem can be learned by any algorithm) under Vapnik's general learning setting with differential privacy constraint, and reveal some intricate relationships between privacy, stability and learnability. In particular, we show that a problem is privately learnable **if an only if** there is a private algorithm that asymptotically minimizes the empirical risk (AERM). In contrast, for non-private learning AERM alone is not sufficient for learnability. This result suggests that when searching for private learning algorithms, we can restrict the search to algorithms that are AERM. In light of this, we propose a conceptual procedure that always finds a universally consistent algorithm whenever the problem is learnable under privacy constraint. We also propose a generic and practical algorithm and show that under very general conditions it privately learns a wide class of learning problems. Lastly, we extend some of the results to the more practical $(ε,δ)$-differential privacy and establish the existence of a phase-transition on the class of problems that are approximately privately learnable with respect to how small $δ$ needs to be.
研究动机与目标
- 在Vapnik的一般学习框架下,刻画在微差隐私下可私密学习的学习问题集合。
- 确立AERM原则对私密学习的充分性和必要性,与非私密设置中仅AERM不足以保证学习性形成对比。
- 开发一种通用的、普遍一致的私密学习算法,适用于所有可私密学习的问题。
- 将结果扩展至$(\epsilon,\delta)$-微差隐私,并基于$\delta$识别出学习性的一个相变现象。
提出的方法
- 证明微差隐私蕴含算法稳定性,而算法稳定性又蕴含经验风险最小化的相容性。
- 使用一种新颖的稳定性论证,表明私密算法的相容性意味着其必须是AERM,从而确立必要性。
- 基于AERM构造一个概念性私密学习算法,当私密学习性成立时,可保证普遍相容性。
- 提出一种基于指数机制和凸优化的实用算法,实现凸问题中高效私密学习。
- 应用Dwork等人(2015b)的结果,推导出高概率泛化界,将隐私与泛化性联系起来,且无需对$n$做额外假设。
- 分析$(\epsilon,\delta)$-微差隐私中的相变现象,表明学习性在很大程度上取决于$\delta$必须多小。
实验结果
研究问题
- RQ1在一般学习设置下,一个学习问题在微差隐私下可私密学习的必要且充分条件是什么?
- RQ2为何AERM对私密学习充分,但对非私密学习不充分?
- RQ3能否基于AERM为任意可私密学习问题构造一个通用且一致的私密学习算法?
- RQ4在$(\epsilon,\delta)$-微差隐私下,$\delta$的选择如何影响问题的学习性?
- RQ5私密学习算法可实现的最优收敛速率是多少?与非私密方法或次优私密方法相比如何?
主要发现
- 一个学习问题可私密学习当且仅当存在一个渐近最小化经验风险(AERM)的微差隐私算法。
- AERM原则对私密学习而言既是必要也是充分的,这与非私密学习形成关键区别:在非私密学习中,仅AERM不足以保证学习性。
- 可以构造一种通用的私密学习算法,当问题可私密学习时,该算法具有普遍相容性,提供一种通用解决方案。
- 本文建立了$(\epsilon,\delta)$-微差隐私中的相变现象:仅当$\delta$足够小时,问题才可近似私密学习,且存在一个依赖于问题类别的尖锐阈值。
- 对于均值估计等简单问题(使用高阶损失),所提方法达到$O(n^{-9/10})$的收敛速率,优于其他方法仅能实现的$\tilde{O}(n^{-1/2})$,原因在于其边界更紧。
- 该证明技术避免了对$n$的假设,相较于依赖高概率泛化边界且在快速收敛场景中表现较差的先前方法,提供了更紧的收敛速率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。