[论文解读] Testing Robustness Against Unforeseen Adversaries
本文介绍了 ImageNet-UA、一个基准和 UA2 指标,以评估对 19 种非Lp 对手的未知鲁棒性,并显示未见攻击暴露了传统 Lp 鲁棒性所未捕捉的弱点。
Adversarial robustness research primarily focuses on L_p perturbations, and most defenses are developed with identical training-time and test-time adversaries. However, in real-world applications developers are unlikely to have access to the full range of attacks or corruptions their system will face. Furthermore, worst-case inputs are likely to be diverse and need not be constrained to the L_p ball. To narrow in on this discrepancy between research and reality we introduce ImageNet-UA, a framework for evaluating model robustness against a range of unforeseen adversaries, including eighteen new non-L_p attacks. To perform well on ImageNet-UA, defenses must overcome a generalization gap and be robust to a diverse attacks not encountered during training. In extensive experiments, we find that existing robustness measures do not capture unforeseen robustness, that standard robustness techniques are beat by alternative training strategies, and that novel methods can improve unforeseen robustness. We present ImageNet-UA as a useful tool for the community for improving the worst-case behavior of machine learning systems.
研究动机与目标
- 激励评估模型在超出 Lp 受限攻击的多样、未知对手集合上的鲁棒性。
- 提出 ImageNet-UA 作为 ImageNet 上未知鲁棒性的标准化基准(CIFAR-10-UA 作为较小的类似基准)。
- 定义未可知对抗精度(UA2)度量,量化在多样化攻击类型下的性能。
- 提供非 Lp 可微攻击的存储库,以实现广泛鲁棒性测试。
- 实证分析现有防御在未知攻击下的表现并识别有前景的训练/防御策略。
提出的方法
- 定义一个通用的对抗性框架,其中攻击 A 通过一个可微分的函数 A(x,δ) 修改输入,潜在扰动 δ。
- 开发18种新颖的非 Lp 攻击(加上 Elastic 作为非新颖的),每种均可微并被一个 Lp 约束 ε 限制,使其实现数据集无关的即插即用。
- 使用投影梯度下降(PGD)在每种攻击的扰动集合 Sx^A,ε 内求解内部极小值。
- 通过将攻击应用于标准数据集并评估分类,构建 ImageNet-UA 和 CIFAR-10-UA 基准。
- 引入 UA2,定义为有限对手族群 A 在攻击 A 的水平 ε_A 下的准确率平均值。
- 提供将 UA2 与现有鲁棒性指标进行比较的分析,并探索能够提升未知鲁棒性的训练策略。
实验结果
研究问题
- RQ1未见、非 Lp 对手的对抗压力如何影响模型准确率,相较于传统的 Lp 攻击?
- RQ2现有指标是否能够捕捉到未知鲁棒性,还是 UA2 揭示了不同的弱点?
- RQ3哪些训练或防御策略能够提升对未知攻击的鲁棒性,超越针对 Lp 的防御?
- RQ4标准计算机视觉基准的进展在多大程度上与未知鲁棒性的提升相关?
- RQ5结合数据增强和 Lp 训练或多攻击策略是否能够在不同模型上提升未知鲁棒性?
主要发现
- 未知鲁棒性(UA2)与传统的 Lp 鲁棒性不同,不能被现有指标完全预测。
- 基于 L2 的对抗训练在多个模型上相较于 L∞ 训练,对未知鲁棒性(UA2)提供更强的改进。
- 将图像增强(如 PixMix)与 L∞ 训练结合,显著提升 UA2,超过任一方法单独使用。
- 多攻击鲁棒训练和基于感知的防御(PAT)也提升 UA2,有时甚至超越纯粹的 Lp 基线。
- 现代计算机视觉模型和训练的进展(规模、预训练、增强)与 UA2 的提升相关,表明 CV 进展在一定程度上与未知鲁棒性相关。
- 经过优化的非 Lp 攻击表明,即使在高 L∞ 鲁棒性的模型也可能在未知对手面前表现不佳,凸显需要多样化评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。