Skip to main content
QUICK REVIEW

[论文解读] Understanding Membership Inferences on Well-Generalized Learning Models

Yunhui Long, Vincent Bindschaedler|arXiv (Cornell University)|Feb 13, 2018
Adversarial Robustness in Machine Learning参考文献 35被引用 164
一句话总结

本文表明在使用广义成员身份推断攻击(GMIA)的情况下,成员身份推断攻击可以在泛化良好的模型上取得成功;它识别易受攻击的记录,使用参考模型,并在真实数据评估中演示直接和间接推断。

ABSTRACT

Membership Inference Attack (MIA) determines the presence of a record in a machine learning model's training data by querying the model. Prior work has shown that the attack is feasible when the model is overfitted to its training data or when the adversary controls the training algorithm. However, when the model is not overfitted and the adversary does not control the training algorithm, the threat is not well understood. In this paper, we report a study that discovers overfitting to be a sufficient but not a necessary condition for an MIA to succeed. More specifically, we demonstrate that even a well-generalized model contains vulnerable instances subject to a new generalized MIA (GMIA). In GMIA, we use novel techniques for selecting vulnerable instances and detecting their subtle influences ignored by overfitting metrics. Specifically, we successfully identify individual records with high precision in real-world datasets by querying black-box machine learning models. Further we show that a vulnerable record can even be indirectly attacked by querying other related records and existing generalization techniques are found to be less effective in protecting the vulnerable instances. Our findings sharpen the understanding of the fundamental cause of the problem: the unique influences the training instance may have on the model.

研究动机与目标

  • 重新评估过拟合是否是 ML 模型成员披露的唯一驱动因素。
  • 开发能够攻击泛化良好模型的广义成员身份推断攻击(GMIA)。
  • 识别易受攻击的训练记录和可通过黑盒查询暴露成员身份的微小影响。
  • 在真实世界数据集上评估攻击有效性,并与正则化防御进行对比。

提出的方法

  • 引入不依赖影子模型的广义成员身份推断攻击(GMIA),适用于泛化良好的目标。
  • 通过自举采样构建参考模型,以在可获取数据上模拟目标模型的行为。
  • 通过测量参考模型的高层特征来识别易受攻击的目标记录,评估它们的唯一影响。
  • 通过将目标模型输出与参考模型分布进行对比,使用基于对数损失的假设检验来进行直接推断。
  • 通过识别增强记录并对非目标记录进行查询来实现间接推断;将结果与 Kost 方法结合。

实验结果

研究问题

  • RQ1过拟合是否是 ML 模型成员披露的必要条件?
  • RQ2在没有访问训练算法的情况下,成员身份推断能否对泛化良好的模型成功?
  • RQ3除了过拟合之外,导致成员泄漏的原因是什么,是否能检测出易受攻击的训练记录?
  • RQ4GMIA 在直接和间接推断情景中的有效性如何?
  • RQ5正则化技术对 GMIA 在真实数据集上的成功率有何影响?

主要发现

  • MIA 可以在泛化良好的模型上取得成功,对选定的易受攻击记录进行高精度攻击。
  • 在 MNIST 上,73.88% 的模型对易受攻击对象的攻击精度达到 93.36%。
  • 在 Cancer 上,3.2% 的模型对目标患者的攻击精度达到 88.89%。
  • 在 Adult 上,5.23% 的模型对目标个体的攻击精度达到 73.91%。
  • 正则化(如 L2)并不能可靠地消除威胁;例如,在某些设定下,MNIST 的推断在 34% 的模型中仍然可能,且精度达到 100%。
  • 在某些情况下,间接推断的表现甚至优于直接推断,包括 Adult 数据集的 16% 模型达到 100% 的精度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。