[论文解读] Better Safe Than Sorry: Preventing Delusive Adversaries with Adversarial Training
本文提出对抗性训练作为一种针对欺骗性攻击的合理防御方法——即恶意的训练时扰动,会降低模型准确率但不导致误标。通过在 ∞-Wasserstein 球内形式化欺骗性攻击,作者表明在扰动数据上最小化对抗风险,可优化原始数据上自然风险的上界,从而使得对抗性训练能在多个基准和攻击类型下恢复因欺骗性对手而损失的性能。
Delusive attacks aim to substantially deteriorate the test accuracy of the learning model by slightly perturbing the features of correctly labeled training examples. By formalizing this malicious attack as finding the worst-case training data within a specific $\\infty$-Wasserstein ball, we show that minimizing adversarial risk on the perturbed data is equivalent to optimizing an upper bound of natural risk on the original data. This implies that adversarial training can serve as a principled defense against delusive attacks. Thus, the test accuracy decreased by delusive attacks can be largely recovered by adversarial training. To further understand the internal mechanism of the defense, we disclose that adversarial training can resist the delusive perturbations by preventing the learner from overly relying on non-robust features in a natural setting. Finally, we complement our theoretical findings with a set of experiments on popular benchmark datasets, which show that the defense withstands six different practical attacks. Both theoretical and empirical results vote for adversarial training when confronted with delusive adversaries.
研究动机与目标
- 应对欺骗性攻击日益增长的威胁,即攻击者微妙地扰动正确标记的训练数据,从而降低模型泛化能力。
- 克服标准数据清洗和检测方法的局限性,这些方法在扰动样本被正确标记且数量众多时会失效。
- 证明对抗性训练可在不丢弃扰动样本的前提下防御欺骗性攻击,从而保持数据的可用性。
- 揭示对抗性训练如何通过内部机制防止模型过度依赖欺骗性对手引入的非鲁棒、脆弱特征。
- 在监督学习和自监督学习任务中,针对 CIFAR-10、SVHN 和 ImageNet 子集上的六种不同实际攻击,实证验证该防御方法的有效性。
提出的方法
- 将欺骗性攻击形式化为在保持标签不变的前提下,于 ∞-Wasserstein 球内寻找最坏情况的训练数据,以建模最具破坏性的扰动。
- 证明在扰动数据上最小化对抗风险,等价于优化原始数据上自然风险的上界。
- 利用该等价性,为对抗性训练作为欺骗性对手的合理防御机制提供理论依据。
- 通过分析两种扰动方向:对抗性(P1, P3)和伪善性(P2, P4),揭示对抗性训练通过不同机制抵抗两类扰动。
- 提出五种实际攻击变体:P1(对抗性)、P2(伪善性)、P3(通用对抗性)、P4(通用伪善性)和 P5(通用随机扰动),用于实证评估。
- 在受这些攻击污染的数据集上应用标准对抗性训练(如基于 PGD 的方法),以评估在干净测试集上的鲁棒性和泛化能力。
实验结果
研究问题
- RQ1对抗性训练能否有效防御那些扰动正确标记训练数据但不误标的数据中毒攻击?
- RQ2是否存在理论依据解释为何对抗性训练能在欺骗性中毒攻击下提升自然准确率?
- RQ3对抗性训练如何缓解欺骗性对手引入的非鲁棒特征带来的负面影响?
- RQ4该防御方法是否对包括通用扰动和随机扰动在内的多种攻击类型均有效?
- RQ5在存在不可信数据源的真实场景中,对抗性训练能否恢复因欺骗性攻击而下降的性能?
主要发现
- 在欺骗性中毒数据上进行对抗性训练,可恢复原本会严重下降的自然测试准确率,即使所有训练样本均被扰动。
- 理论分析表明,在中毒数据上最小化对抗风险,可优化原始数据上自然风险的上界,从而为该防御机制提供理论支持。
- 对抗性训练可防止模型过度依赖欺骗性攻击引入的非鲁棒、脆弱特征,从而提升泛化能力。
- 该防御方法对六种不同实际攻击(包括通用对抗性和伪善性扰动)均有效,覆盖 CIFAR-10、SVHN 和 ImageNet 子集。
- 即使是最简单的 P5 攻击(使用类别特定的随机扰动)也表现出出人意料的有效性,但对抗性训练仍能成功缓解其影响。
- 实证结果证实,对抗性训练不仅对测试时的对抗样本有效,更是对抗更具隐蔽性的欺骗性训练时攻击的强大防御手段。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。