[论文解读] Adversarial Risk and the Dangers of Evaluating Against Weak Attacks
该论文认为报告的对抗鲁棒性通常依赖于代理攻击;形式化对抗风险,引入模糊性,并显示许多防御对更强攻击易被突破。
This paper investigates recently proposed approaches for defending against adversarial examples and evaluating adversarial robustness. We motivate 'adversarial risk' as an objective for achieving models robust to worst-case inputs. We then frame commonly used attacks and evaluation metrics as defining a tractable surrogate objective to the true adversarial risk. This suggests that models may optimize this surrogate rather than the true adversarial risk. We formalize this notion as 'obscurity to an adversary,' and develop tools and heuristics for identifying obscured models and designing transparent models. We demonstrate that this is a significant problem in practice by repurposing gradient-free optimization techniques into adversarial attacks, which we use to decrease the accuracy of several recently proposed defenses to near zero. Our hope is that our formulations and results will help researchers to develop more powerful defenses.
研究动机与目标
- 将对抗风险确立为最坏情况的性能度量。
- 证明常见的评估指标只是对真实对抗风险的代理。
- 引入模糊性作为诊断依赖弱攻击的防御的一种方法。
- 通过实验表明,许多防御在更强的攻击下会失败。
提出的方法
- 将对抗风险形式化为对输入的最坏情况风险。
- 通过邻域 Nε(x) 与选定的对手 f 定义局部对抗风险 L 以及代理风险 Ĺ。
- 定义 obscurity(θ, f) = L(θ) − Ĺ(θ, f) 并讨论透明性。
- 描述基于梯度的(PGD)和无梯度的(SPSA)攻击策略以评估鲁棒性。
- 分析基于转移的攻击和不可微防御的模糊性效应。
- 通过对更强的对手进行评估来比较防御,从而揭示真实鲁棒性。
实验结果
研究问题
- RQ1代理对抗评估指标在多大程度上反映真实的对抗风险?
- RQ2防御在多大程度上依赖模糊性而非真正的鲁棒性?
- RQ3更强的或无梯度的攻击能否揭示在标准评估中通过的防御中的弱点?
- RQ4不可微变换、生成模型防御以及对抗性训练在更强攻击下的表现如何?
主要发现
- 在标准攻击下表现强劲的许多防御,对更强或无梯度攻击仍然脆弱。
- 模糊性是一个重要因素;更高的代理性能并不保证较低的真实对抗风险。
- 基于梯度的攻击在不可微防御上可能失败,但无梯度方法能揭示对抗样本。
- PixelDefend、自编码器净化,以及基于随机性的防御可被更强对手击败。
- 对抗性训练降低模糊性并提升真实鲁棒性,与一些易产生模糊性的防御不同。
- 论文表明更强攻击可将多种防御的准确率降至接近零。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。