[论文解读] Towards Measuring Membership Privacy
该论文提出 Differential Training Privacy (DTP) 作为在无法应用差分隐私时,用于量化分类器成员推断风险的经验度量,并提出 PDTP 作为一个高效可计算的下界。它显示 DTP/PDTP 能预测成员攻击的成功率,并倡导将 DTP-1 作为出版指南。
Machine learning models are increasingly made available to the masses through public query interfaces. Recent academic work has demonstrated that malicious users who can query such models are able to infer sensitive information about records within the training data. Differential privacy can thwart such attacks, but not all models can be readily trained to achieve this guarantee or to achieve it with acceptable utility loss. As a result, if a model is trained without differential privacy guarantee, little is known or can be said about the privacy risk of releasing it. In this work, we investigate and analyze membership attacks to understand why and how they succeed. Based on this understanding, we propose Differential Training Privacy (DTP), an empirical metric to estimate the privacy risk of publishing a classier when methods such as differential privacy cannot be applied. DTP is a measure of a classier with respect to its training dataset, and we show that calculating DTP is efficient in many practical cases. We empirically validate DTP using state-of-the-art machine learning models such as neural networks trained on real-world datasets. Our results show that DTP is highly predictive of the success of membership attacks and therefore reducing DTP also reduces the privacy risk. We advocate for DTP to be used as part of the decision-making process when considering publishing a classifier. To this end, we also suggest adopting the DTP-1 hypothesis: if a classifier has a DTP value above 1, it should not be published.
研究动机与目标
- 激励并量化在未提供 DP 保证的情况下公开给公众查询的分类器的隐私风险。
- 开发一个经验性的、面向分类器与数据集的隐私度量(DTP),用于衡量成员泄露。
- 引入 PDTP,作为 DTP 的高效可计算下界,并将其与直接成员攻击联系起来。
- 在真实数据集和常见模型上验证 DTP/PDTP,以指导 MLaaS 的出版决策。
- 提出 DTP-1 假设作为实用的出版阈值。
提出的方法
- 将 Differential Training Privacy (DTP) 定义并形式化为在去除训练记录时预测如何改变的界限。
- 提出 PDTP,作为 DTP 的计算高效代理,使用留一法评估(leave-one-out/leave-one-record-out)。
- 构建一个通用的成员攻击框架(非目标化、基于距离、基于频率)和影子模型攻击来评估隐私。
- 在真实数据集(UCI Adult 和 NN-Purchase)和多种模型(NN、NB、LR)上进行评估,并使用预测分箱来稳定测量。
- 分析训练稳定性并提供何时直接攻击支配间接攻击的理论见解。
实验结果
研究问题
- RQ1我们能否使用像 DTP 这样的经验性、非 DP 指标来量化分类器的成员隐私风险?
- RQ2PDTP 是否是一个可靠、有效的 DTP 下界,并与实际成员攻击的成功率相关?
- RQ3DTP-1 阈值(DTP > 1 表示不应发表)在不同数据集和模型上是否成立?
- RQ4分类器过拟合或训练稳定性如何影响对成员推断攻击的易感性?
- RQ5攻击类型(非目标化、基于距离、基于频率)与 PDTP/DTP 指标之间的关系是什么?
主要发现
- DTP 值在各实验中与成员攻击成功率高度相关(例如 NN-Purchase:距离基攻击的相关系数 r = 0.7653;总体上攻击相关性强)。
- DTP 值低于 0.5 时,攻击的成员推断准确度未超过基线;当 DTP 超过 4 时,攻击的准确率常常超过 90%。
- PDTP 提供 DTP 的下界,并通过留一法评估作为成员隐私风险的高效指示器。
- 三种直接攻击中,距离基攻击表现最佳,准确率最高(如 0.8533),与 PDTP 的相关性最强。
- 研究支持 DTP-1 假设作为实用指南:DTP > 1 的分类器不应发表。
- 训练稳定性被确认为关键因素;朴素贝叶斯、随机决策树、线性统计查询满足训练稳定性,而 k-NN 不满足。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。