[论文解读] Why Do Adversarial Attacks Transfer? Explaining Transferability of Evasion and Poisoning Attacks
本文提出一个统一的基于梯度的框架,用于规避与中毒攻击,形式化迁移性,并识别驱动跨模型和数据集迁移性的因素。
Transferability captures the ability of an attack against a machine-learning model to be effective against a different, potentially unknown, model. Empirical evidence for transferability has been shown in previous work, but the underlying reasons why an attack transfers or not are not yet well understood. In this paper, we present a comprehensive analysis aimed to investigate the transferability of both test-time evasion and training-time poisoning attacks. We provide a unifying optimization framework for evasion and poisoning attacks, and a formal definition of transferability of such attacks. We highlight two main factors contributing to attack transferability: the intrinsic adversarial vulnerability of the target model, and the complexity of the surrogate model used to optimize the attack. Based on these insights, we define three metrics that impact an attack's transferability. Interestingly, our results derived from theoretical analysis hold for both evasion and poisoning attacks, and are confirmed experimentally using a wide range of linear and non-linear classifiers and datasets.
研究动机与目标
- 定义规避和中毒攻击的迁移性。
- 为两种攻击类型开发一个统一的基于梯度的优化框架。
- 识别影响代理目标模型对之间迁移性的因素。
- 提出将模型复杂度与输入梯度联系起来的度量指标,以评估迁移性。
- 在多种分类器和数据集上实证验证理论洞见。
提出的方法
- 提出一个包含在各种威胁模型下的规避与中毒攻击的梯度下降攻击框架。
- 推导一个用于逻辑回归的新颖基于梯度的中毒可用性攻击。
- 形式化迁移性并通过分析输入梯度、代理-目标梯度对齐和损失景观方差来界定其成功概率。
- 提供对基于梯度的攻击生成的算法,并投影到可行的操控集合上。
- 通过学习算法的隐式微分(KKT 条件)来计算中毒攻击梯度。
- 在 MNIST、DREBIN 和 LFW 上对线性与非线性分类器的攻击进行评估。
实验结果
研究问题
- RQ1导致对手的攻击从代理模型转移到目标模型的原因是什么?
- RQ2代理-目标梯度对齐和模型复杂性如何影响迁移性?
- RQ3是否存在一个统一的优化框架能够描述跨威胁模型的规避与中毒攻击?
- RQ4有哪些实用的度量指标能够将模型复杂度与输入梯度联系起来以评估迁移性?
- RQ5理论洞见在不同数据集与分类器类型下是否成立?
主要发现
- 迁移性受目标模型固有易受攻击性、代理模型的复杂性以及代理和目标梯度之间对齐程度的影响。
- 出现三条度量:输入梯度的大小、代理与目标之间的梯度对齐、以及损失景观的方差。
- 正则化与较低的模型复杂性会降低输入梯度的幅度,并且可以提升对规避与中毒的鲁棒性。
- 代理与目标梯度之间更强的对齐会增加攻击的迁移性。
- 迁移性越高的规避攻击在不同模型之间的转移效果越好。
- 该框架给出了一个用于逻辑回归的新的中毒可用性攻击,并在多个数据集上验证了发现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。