Skip to main content
QUICK REVIEW

[论文解读] AttriGuard: A Practical Defense Against Attribute Inference Attacks via Adversarial Machine Learning

Jinyuan Jia, Neil Zhenqiang Gong|arXiv (Cornell University)|May 13, 2018
Adversarial Robustness in Machine Learning参考文献 47被引用 67
一句话总结

AttriGuard 定义了一种两阶段、加入噪声的防御,针对属性推断攻击,达到低效用损失和显著的攻击缓解。

ABSTRACT

Users in various web and mobile applications are vulnerable to attribute inference attacks, in which an attacker leverages a machine learning classifier to infer a target user's private attributes (e.g., location, sexual orientation, political view) from its public data (e.g., rating scores, page likes). Existing defenses leverage game theory or heuristics based on correlations between the public data and attributes. These defenses are not practical. Specifically, game-theoretic defenses require solving intractable optimization problems, while correlation-based defenses incur large utility loss of users' public data. In this paper, we present AttriGuard, a practical defense against attribute inference attacks. AttriGuard is computationally tractable and has small utility loss. Our AttriGuard works in two phases. Suppose we aim to protect a user's private attribute. In Phase I, for each value of the attribute, we find a minimum noise such that if we add the noise to the user's public data, then the attacker's classifier is very likely to infer the attribute value for the user. We find the minimum noise via adapting existing evasion attacks in adversarial machine learning. In Phase II, we sample one attribute value according to a certain probability distribution and add the corresponding noise found in Phase I to the user's public data. We formulate finding the probability distribution as solving a constrained convex optimization problem. We extensively evaluate AttriGuard and compare it with existing methods using a real-world dataset. Our results show that AttriGuard substantially outperforms existing methods. Our work is the first one that shows evasion attacks can be used as defensive techniques for privacy protection.

研究动机与目标

  • 在社交媒体、推荐系统和移动应用中激发对属性推断攻击的隐私担忧。
  • 开发一种在计算上可行且造成较小效用损失的实用防御。
  • 提出一种两阶段防御(噪声优化和概率性噪声混合),无需知道攻击者的模型或用户的真实属性。
  • 将规避攻击扩展为对抗属性推断攻击的防御技术。

提出的方法

  • 阶段 I 适配规避攻击以在噪声类型策略下为每个可能的属性值 i 找到最小噪声 r_i,使 C(x + r_i) = i。
  • 阶段 II 将防御建模为一个凸优化问题,将机制视为对 m 个代表性噪声 {r_1,...,r_m} 的分布,并在一个效用预算的约束下最小化 KL(p||q)。
  • 防御者学习一个分类器 C 以模拟攻击者的行为,并利用迁移性(在防御下的攻击成功率)来指导噪声设计。
  • 阶段 I 使用一个名为 PANDA 的策略感知噪声发现算法,其灵感来源于基于雅可比的显著性映射,在 Modify_Exist、Add_New 或 Modify_Add 策略下选择并应用噪声。
  • 阶段 II 通过求解一个约束的凸优化,确定对噪声的概率分布以使 KL 散度最小化到目标分布 p,同时限制期望效用损失。
  • 该方法在最终机制 M* 中最多具有 m 个非零参数,提供可行的防御。

实验结果

研究问题

  • RQ1规避攻击是否可以改编用来防御属性推断攻击?
  • RQ2在不知晓攻击者的模型或用户真实属性的前提下,如何设计一个既保护隐私又保持高效用的噪声添加机制?
  • RQ3在实际的噪声类型策略下,选择噪声以最小化攻击者推断精度的最佳方法是什么?
  • RQ4在真实世界数据上,两阶段的 AttriGuard 框架对抗未知防御和对抗性防御的属性推断攻击的效果如何?

主要发现

  • AttriGuard 在显著降低攻击者推断准确性的同时保持较小的效用损失。
  • 阶段 I 中改编的规避攻击在策略约束下优于现有的噪声寻找方法。
  • 在真实世界的 Google Play 数据集上,平均最多修改 4 个评分,便可使若干攻击的攻击者准确度下降约 75%。
  • 阶段 II 的带有 KKT 基解的凸优化高效地计算噪声混合,使其与目标分布接近并具有有界的效用损失。
  • AttriGuard 是首次工作显示规避攻击可以用作隐私保护的防御技术。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。