[论文解读] Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial Perturbations
本文揭示了对基于敏感度的对抗攻击(小扰动)的鲁棒性与对基于不变性的对抗攻击(保持模型预测但改变语义的扰动)的脆弱性之间存在根本性权衡。研究表明,对 ℓp-有界扰动鲁棒的防御方法会引入过度的不变性,导致模型将人类明显感知为不同的输入错误分类,甚至破坏当前最先进的和可证明鲁棒的模型。
Adversarial examples are malicious inputs crafted to induce misclassification. Commonly studied sensitivity-based adversarial examples introduce semantically-small changes to an input that result in a different model prediction. This paper studies a complementary failure mode, invariance-based adversarial examples, that introduce minimal semantic changes that modify an input's true label yet preserve the model's prediction. We demonstrate fundamental tradeoffs between these two types of adversarial examples. We show that defenses against sensitivity-based attacks actively harm a model's accuracy on invariance-based attacks, and that new approaches are needed to resist both attack types. In particular, we break state-of-the-art adversarially-trained and certifiably-robust models by generating small perturbations that the models are (provably) robust to, yet that change an input's class according to human labelers. Finally, we formally show that the existence of excessively invariant classifiers arises from the presence of overly-robust predictive features in standard datasets.
研究动机与目标
- 研究对抗训练的非预期后果:对语义上有意义变化的过度不变性。
- 揭示对基于敏感度攻击的鲁棒性与对基于不变性攻击的脆弱性之间的根本性权衡。
- 证明对 ℓp-有界扰动鲁棒的模型在人类标注标签发生变化时仍可能出错。
- 挑战 ℓp-范数鲁棒性可确保一般对抗鲁棒性的假设。
- 提出一种新攻击框架,在 ℓp-有界范围内生成基于不变性的对抗样本。
提出的方法
- 开发一种新攻击,用于生成改变人类标签但保持模型预测不变的基于不变性的对抗样本。
- 使用 ℓp-范数有界扰动(例如 ℓ₀、ℓ∞)构造位于当前最先进模型鲁棒半径内的样本。
- 将该攻击应用于标准对抗训练模型和可证明鲁棒的模型(例如,ε = 0.4 ℓ∞-鲁棒性)。
- 通过评估模型在构造的不变性样本上与人类标注者的一致性来衡量语义不变性。
- 通过数据增强(旋转、平移、噪声)训练模型,以检验其是否能缓解过度不变性。
- 理论分析表明,标准数据集中存在过于鲁棒的预测特征,是导致分类器出现过度不变性的根源。
实验结果
研究问题
- RQ1对 ℓp-有界扰动的鲁棒性是否会导致模型对输入中语义变化产生过度不变性?
- RQ2能否在当前最先进模型的 ℓp-鲁棒性半径内构造出基于不变性的对抗样本?
- RQ3鲁棒模型在基于不变性的对抗样本上的表现与未防御模型相比如何?
- RQ4数据增强能否减少鲁棒模型中的过度不变性?
- RQ5在标准数据集上训练的模型中,过度不变性的理论根源是什么?
主要发现
- 即使对 ℓ∞-扰动(ε = 0.1)具有鲁棒性的最先进对抗训练模型,在基于不变性的对抗样本上与人类标注者仍表现出高度不一致。
- 一个可证明鲁棒的模型(ε = 0.4)在自动化的不变性攻击下仅与人类标注者达成 60% 的一致率,在手动构造的样本上仅为 12%——低于随机猜测水平。
- 即使对极小的 ℓ∞-扰动(ε < 0.1)也具有鲁棒性的模型,对不变性攻击的脆弱性仍高于未防御模型。
- 该攻击成功在模型的 ℓp-鲁棒性半径内生成了基于不变性的对抗样本,证明 ℓp-鲁棒性并不意味着一般性鲁棒性。
- 包含空间变换和噪声的数据增强可提高与人类的一致性,但无法完全消除鲁棒模型中的过度不变性。
- 理论分析表明,标准数据集中过于鲁棒的特征是分类器出现过度不变性的根本原因。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。