Skip to main content
QUICK REVIEW

[论文解读] Data Poisoning against Differentially-Private Learners: Attacks and Defenses

Yuzhe Ma, Xiaojin Zhu|arXiv (Cornell University)|Mar 23, 2019
Adversarial Robustness in Machine Learning参考文献 20被引用 27
一句话总结

本文研究了针对差分隐私机器学习模型的数据中毒攻击,表明尽管差分隐私在少量数据点被污染时能提供可证明的防御能力,但当攻击者污染更大比例的训练数据时,仍可能成功。作者设计了针对目标扰动和输出扰动学习者的有效攻击算法,实证结果表明,即使在存在隐私保证的情况下,攻击仍能显著降低模型与恶意目标之间的偏差。

ABSTRACT

Data poisoning attacks aim to manipulate the model produced by a learning algorithm by adversarially modifying the training set. We consider differential privacy as a defensive measure against this type of attack. We show that such learners are resistant to data poisoning attacks when the adversary is only able to poison a small number of items. However, this protection degrades as the adversary poisons more data. To illustrate, we design attack algorithms targeting objective and output perturbation learners, two standard approaches to differentially-private machine learning. Experiments show that our methods are effective when the attacker is allowed to poison sufficiently many training items.

研究动机与目标

  • 调查差分隐私是否能有效防御机器学习中的数据中毒攻击。
  • 分析在差分隐私下数据中毒攻击的理论极限,特别是随着被污染样本数量增加,防护能力如何退化。
  • 开发针对两种标准差分隐私学习机制(目标扰动和输出扰动)的实用攻击算法。
  • 在合成数据集和真实数据集上,通过实证评估攻击效果,比较不同隐私级别和学习算法下的性能表现。
  • 识别理论上的攻击成功率下限与实际攻击性能之间的差距,为未来研究指明方向。

提出的方法

  • 形式化威胁模型:攻击者完全掌握训练数据和模型,可修改最多 k 个训练样本,目标是使模型偏离目标模型的期望代价最小化。
  • 基于随机梯度下降提出攻击算法,以搜索能最小化差分隐私学习者随机输出下期望代价函数的有效中毒样本。
  • 在两类差分隐私学习者上实施攻击:目标扰动(在损失函数中注入噪声)和输出扰动(在最终模型参数上添加噪声)。
  • 设计针对特定攻击目标的代价函数,例如:通过最小化交叉熵损失实现误分类,或通过最小化均方误差实现回归目标偏移。
  • 使用归一化的特征和标签空间以确保优化过程的有界性和稳定性,并应用隐私参数(ε, λ)控制差分隐私水平。
  • 在真实数据集(如威斯康星州乳腺癌数据集、红葡萄酒质量数据集)上评估攻击效果,改变隐私预算(ε)和中毒预算(k),测量攻击代价的降低程度。

实验结果

研究问题

  • RQ1随着被污染的训练样本数量增加,数据中毒攻击在差分隐私学习者上的有效性如何变化?
  • RQ2数据中毒攻击成功率的理论界限在多大程度上与实际中的性能表现一致?
  • RQ3减弱隐私预算(增大 ε)如何影响数据中毒攻击的成功率?
  • RQ4在相同攻击条件下,目标扰动和输出扰动学习者是否具有相同的中毒脆弱性?
  • RQ5导致理论下限与实际实验结果之间差距的因素有哪些?

主要发现

  • 当仅少量训练样本被污染时,差分隐私学习者对数据中毒攻击具有可证明的抵抗力,但随着被污染样本数量的增加,这种防护能力呈指数级下降。
  • 所提出的攻击算法在多个数据集上,成功将目标扰动和输出扰动学习者的期望代价函数降低至目标阈值以下(例如,误分类目标低于 0.69)。
  • 在红葡萄酒质量数据集上,仅需污染 6.3% 的数据(1598 个样本中的 100 个),攻击便已将代价降低至目标阈值以下。
  • 随着隐私预算 ε 增大,攻击代价下降并趋近理论下限,表明隐私保护越弱,攻击越有效。
  • 在四种评估的攻击方法中,Deep-DPV 表现最优异,但其实际攻击性能与理论下限之间仍存在显著差距。
  • 理论与实践之间的差距表明,要么理论界限过于宽松,要么攻击方法尚可进一步优化,这为未来研究提出了一个开放性问题。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。