[论文解读] Robustness Assessment for Adversarial Machine Learning: Problems, Solutions and a Survey of Current Neural Networks and Defenses
本文提出一种模型无关的双 $L_0$ 与 $L_\infty$ 质量评估方法,以应对对抗机器学习中鲁棒性评估的挑战,揭示了当前模型与防御方法在所有鲁棒性水平下仍存在脆弱性。研究发现,鲁棒性表现显著依赖于所采用的评估指标,且提出了一种新型 $L_\infty$ 黑盒攻击,其扰动量仅需 One-Pixel Attack 的 12%,即可达到相似的成功率。
In adversarial machine learning, there are a huge number of attacks of various types which evaluates robustness for new models and defences a daunting task. To make matters worse, there is an inherent bias in attacks and defences. Here, we organize the problems faced (model dependence, insufficient evaluation, false adversarial samples and perturbation dependent results) and propose a model agnostic dual ($L_0$ and $L_\infty$) quality assessment method together with the concept of robustness levels to tackle them. We validate the dual quality assessment on state-of-the-art models (WideResNet, ResNet, AllConv, DenseNet, NIN, LeNet and CapsNet) as well as the current hardest defences proposed at ICLR 2018 and the widely known adversarial training, showing that current models and defences are vulnerable in all levels of robustness. The robustness assessment show that depending on the metric used (i.e., $L_0$ or $L_\infty$) the robustness may change significantly and therefore duality should be taken into account for a correct assessment. Moreover, a mathematical derivation, as well as a counterexample, suggest that $L_1$ and $L_2$ metrics alone are not enough to avoid false adversarial samples. Interestingly, a by-product of the assessment proposed is a novel $L_\infty$ black-box method which requires even less perturbation than the One-Pixel Attack (only 12\% of One-Pixel Attack's amount of perturbation) to achieve similar results. Thus, this paper elucidates the problems of robustness evaluation, proposes a dual quality assessment to tackle them as well as survey the robustness of current models and defences. Code available at http://bit.ly/DualQualityAssessment.
研究动机与目标
- 解决对抗攻击与防御中的固有偏差问题,该问题会损害鲁棒性评估的可靠性。
- 识别鲁棒性评估中的关键问题:模型依赖性、评估不足、虚假对抗样本以及与扰动相关的评估结果。
- 提出一种基于双指标的质量评估框架,以实现对模型鲁棒性更公平、更全面的评估。
- 使用所提方法调查最先进模型(如 WideResNet、DenseNet)和防御方法(如 ICLR 2018 防御、对抗训练)的鲁棒性。
- 证明仅使用 $L_1$ 与 $L_2$ 指标不足以防止虚假对抗样本的出现,强调双指标评估的必要性。
提出的方法
- 提出一种模型无关的双质量评估方法,结合 $L_0$(被修改像素数量)与 $L_\infty$(最大像素扰动)范数,用于评估鲁棒性。
- 定义鲁棒性等级,以根据模型在不同扰动类型与幅度下的脆弱性进行分类。
- 将双评估方法应用于 7 种最先进模型(WideResNet、ResNet、AllConv、DenseNet、NIN、LeNet、CapsNet)及先进防御机制的评估。
- 推导数学条件,表明 $L_1$ 与 $L_2$ 指标无法消除虚假对抗样本,从而支持双评估的必要性。
- 设计一种新型 $L_\infty$ 黑盒攻击,其成功率达到与 One-Pixel Attack 相当的水平,但仅需其 12% 的扰动预算。
- 通过反例说明,$L_1$ 与 $L_2$ 指标可能因虚假对抗样本而产生误导性的鲁棒性评估结果。
实验结果
研究问题
- RQ1$L_0$ 与 $L_\infty$ 鲁棒性指标在评估模型脆弱性方面有何差异?为何需要双指标评估?
- RQ2当前最先进模型与防御方法在不同鲁棒性等级下,其脆弱性程度如何?
- RQ3仅使用 $L_1$ 与 $L_2$ 指标是否足以防止虚假对抗样本的出现,还是会导致评估偏差?
- RQ4在 $L_\infty$ 范数下,成功执行黑盒攻击所需的最小扰动量是多少?与现有方法相比如何?
- RQ5所提出的双评估方法如何提升对抗鲁棒性评估的可靠性与公平性?
主要发现
- 无论采用何种防御机制,当前模型与防御方法在所有鲁棒性等级下均存在脆弱性。
- 鲁棒性评估结果在使用 $L_0$ 或 $L_\infty$ 指标时存在显著差异,凸显了双指标评估的必要性。
- 所提出的 $L_\infty$ 黑盒攻击仅需 One-Pixel Attack 12% 的扰动预算,即可实现相似的成功率。
- 数学分析与反例表明,仅使用 $L_1$ 与 $L_2$ 指标不足以避免虚假对抗样本的出现。
- 双质量评估方法揭示了广泛使用模型与防御机制中此前未被发现的漏洞,包括 ICLR 2018 中的防御方法。
- 该评估框架暴露了现有评估实践中的固有偏差,倡导采用更全面、更公平的基准测试方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。