[论文解读] Privacy Risks of Explaining Machine Learning Models.
本文研究了机器学习模型解释——特别是基于梯度的归因方法和影响度量——如何泄露敏感的训练数据信息,从而导致成员身份推断攻击和重建攻击。研究结果表明,此类解释会暴露重大的隐私风险,尤其对少数群体和异常值而言,揭示了透明性机制可能无意中损害数据隐私。
Can an adversary exploit model explanations to infer sensitive information about the models' training set? To investigate this question, we first focus on membership inference attacks: given a data point and a model explanation, the attacker's goal is to decide whether or not the point belongs to the training data. We study this problem for two popular transparency methods: gradient-based attribution methods and record-based influence measures. We develop membership inference attacks based on these model explanations, and extensively test them on a variety of datasets. For gradient-based methods, we show that the explanations can leak a significant amount of information about the individual data points in the training set, much beyond what is leaked through the predicted labels. We also show that record-based measures can be effectively, and even more significantly, exploited for membership inference attacks. More importantly, we design reconstruction attacks against this class of model explanations. We demonstrate that they can be exploited to recover significant parts of the training set. Finally, our results indicate that minorities and outliers are more vulnerable to these type of attacks than the rest of the population. Thus, there is a significant disparity for the privacy risks of model explanations across different groups.
研究动机与目标
- 调查模型解释是否可被利用以推断训练数据的敏感信息。
- 评估基于梯度的归因方法和影响度量在成员身份推断攻击中的有效性。
- 探索利用模型解释恢复训练数据的重建攻击。
- 考察不同人口群体中隐私风险的差异,特别是少数群体和异常值。
- 强调模型可解释性技术固有的隐私权衡。
提出的方法
- 开发基于梯度归因方法的成员身份推断攻击,以判断某数据点是否属于训练集。
- 设计基于记录影响度量的成员身份推断攻击,以评估训练集成员身份。
- 提出利用模型解释恢复训练数据显著部分的重建攻击。
- 在多个数据集上评估攻击的泛化能力和有效性。
- 将模型解释导致的隐私泄露与仅由预测标签导致的泄露进行比较。
- 分析不同数据子群体的脆弱性差异,重点关注少数群体和异常值。
实验结果
研究问题
- RQ1能否利用基于梯度的模型解释构建成员身份推断攻击?
- RQ2基于影响度量的解释在多大程度上泄露了关于训练数据成员身份的信息?
- RQ3能否从模型解释中重建训练数据,且重建的准确性如何?
- RQ4某些数据子群体(如少数群体或异常值)是否对这些攻击更加脆弱?
- RQ5与仅由模型预测导致的隐私风险相比,模型解释带来的隐私风险有何差异?
主要发现
- 基于梯度的归因方法泄露的个体训练样本信息,显著多于仅由模型预测导致的信息泄露。
- 基于影响度量的解释在成员身份推断攻击中,比基于梯度的方法更为有效。
- 重建攻击能够利用模型解释恢复训练数据的显著部分。
- 少数群体和异常值在成员身份推断和重建攻击中面临不成比例的更高风险。
- 模型解释的隐私风险并非均匀分布,导致不同人群群体之间的暴露程度存在差异。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。