[论文解读] When Does Machine Learning FAIL? Generalized Transferability for Evasion and Poisoning Attacks
本文提出了 FAIL 攻击者模型,这是一种系统性框架,用于在有限知识和控制能力的现实约束下评估机器学习攻击。它展示了逃避攻击和投毒攻击在多种模型和防御机制之间的广义可转移性,并提出了 StingRay——一种针对四种机器学习应用、三种算法且能绕过两种防御机制的实际目标投毒攻击。
Attacks against machine learning systems represent a growing threat as highlighted by the abundance of attacks proposed lately. However, attacks often make unrealistic assumptions about the knowledge and capabilities of adversaries. To evaluate this threat systematically, we propose the FAIL attacker model, which describes the adversary's knowledge and control along four dimensions. The FAIL model allows us to consider a wide range of weaker adversaries that have limited control and incomplete knowledge of the features, learning algorithms and training instances utilized. Within this framework, we evaluate the generalized transferability of a known evasion attack and we design StingRay, a targeted poisoning attack that is broadly applicable---it is practical against 4 machine learning applications, which use 3 different learning algorithms, and it can bypass 2 existing defenses. Our evaluation provides deeper insights into the transferability of poison and evasion samples across models and suggests promising directions for investigating defenses against this threat.
研究动机与目标
- 为解决在现实攻击者假设下对机器学习攻击缺乏系统性评估的问题。
- 建模对特征、学习算法和训练实例知识与控制能力有限的攻击者。
- 评估逃避攻击和投毒攻击在不同模型和学习算法之间的可转移性。
- 设计一种广泛适用且实用的投毒攻击,能够绕过现有防御机制。
- 为有效防御可转移的投毒和逃避攻击提供洞见。
提出的方法
- 提出 FAIL 攻击者模型,从四个维度定义攻击者能力:对特征的知识、对学习算法的知识、对训练实例的知识,以及对模型更新的控制能力。
- 在 FAIL 框架下,评估已知逃避攻击在多种模型和数据集上的广义可转移性。
- 设计 StingRay,一种通过注入精心构造的训练样本以操纵模型行为的目标投毒攻击。
- 使用三种不同的学习算法(如 SVM、神经网络、决策树)将 StingRay 应用于四种机器学习应用。
- 测试 StingRay 在两种现有防御机制上的有效性,证明其具备绕过能力。
- 利用 FAIL 模型系统分析在不同攻击者知识和控制水平下攻击的鲁棒性。
实验结果
研究问题
- RQ1在 FAIL 模型所定义的现实攻击者约束下,逃避攻击的可转移性如何变化?
- RQ2单一投毒攻击是否可泛化应用于多种机器学习应用和算法?
- RQ3在攻击者知识有限的情况下,现有防御机制在多大程度上能保护系统免受可转移投毒攻击?
- RQ4促成投毒攻击广义可转移性的关键因素是什么?
- RQ5FAIL 模型如何提升对机器学习中对抗性威胁的系统性评估?
主要发现
- FAIL 模型使在现实攻击者假设下系统评估攻击成为可能,揭示即使攻击者能力较弱,仍可实施有效攻击。
- 即使攻击者对目标模型了解有限,逃避攻击在不同模型之间仍表现出显著的可转移性。
- StingRay 在使用三种不同学习算法的四种不同机器学习应用中成功实施了目标投毒攻击。
- StingRay 成功绕过了两种现有防御机制,证明了其在实际应用中的有效性与对已知防御的鲁棒性。
- 研究结果表明,在攻击者知识受限的情况下,投毒攻击的可转移性依然可行,暗示了更广泛的威胁面。
- 结果表明,为使防御有效,必须考虑广义可转移性以应对现实世界中的攻击者。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。