[论文解读] Adversarial Examples Are Not Bugs, They Are Features
本文认为对抗性脆弱性来自数据中非鲁棒但高度具有预测性的特征,并展示如何通过数据集和理论将鲁棒/非鲁棒特征解耦并加以操控。
Adversarial examples have attracted significant attention in machine learning, but the reasons for their existence and pervasiveness remain unclear. We demonstrate that adversarial examples can be directly attributed to the presence of non-robust features: features derived from patterns in the data distribution that are highly predictive, yet brittle and incomprehensible to humans. After capturing these features within a theoretical framework, we establish their widespread existence in standard datasets. Finally, we present a simple setting where we can rigorously tie the phenomena we observe in practice to a misalignment between the (human-specified) notion of robustness and the inherent geometry of the data.
研究动机与目标
- 激发一个新的视角:对抗性脆弱性源于标准监督学习中非鲁棒但具预测性的特征。
- 发展一个正式的鲁棒/非鲁棒特征框架来分析脆弱性。
- 通过数据集构建和实证演示解耦鲁棒和非鲁棒特征。
- 提供一个理论模型,通过数据和扰动度量的错位来研究鲁棒性。
提出的方法
- 在数据分布上定义 rho-useful、gamma-robustly useful,以及有用的非鲁棒特征。
- 在训练中使用对抗损失(对扰动取最大值)来建模鲁棒性。
- 通过将特征限制为鲁棒模型或标准模型使用的特征,构建鲁棒化和非鲁棒化的数据集。
- 证明在鲁棒化数据上进行的标准训练在原始数据上可获得鲁棒性准确率。
- 通过创建对抗性扰动的带标签数据,证明仅非鲁棒特征就能支持标准泛化。
- 提供一个以高斯混合为基础的理论框架来分析对抗扰动下的鲁棒性。
实验结果
研究问题
- RQ1是否可以在标准数据集中明确分离鲁棒特征和非鲁棒特征?
- RQ2将数据集限制为鲁棒特征是否能用标准训练实现鲁棒学习?
- RQ3仅靠非鲁棒特征是否足以实现标准泛化,以及这与对抗性迁移相关性有何关系?
- RQ4对抗性训练如何改变数据几何和特征度量以产生鲁棒性?
主要发现
| Source Dataset | Dataset | CIFAR-10 | ImageNet R |
|---|---|---|---|
| D | D | 95.3% | 96.6% |
| Dhat_rand | Dhat_rand | 63.3% | 87.9% |
| Dhat_det | Dhat_det | 43.7% | 64.4% |
- 存在高预测性但非鲁棒的特征,标准训练利用这些特征,导致对抗性脆弱性。
- 通过鲁棒化数据集移除非鲁棒特征,标准训练能够在原始测试集上实现鲁棒性能。
- 仅非鲁棒特征就足以支持标准分类,即使输入在人眼看来被错误标注。
- 对抗性迁移性可通过各体系结构的模型学习到相似的非鲁棒特征来解释。
- 一个以高斯为基础的理论模型表明鲁棒性来自数据驱动度量与对手扰动度量之间的错位。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。