[论文解读] NATTACK: Learning the Distributions of Adversarial Examples for an Improved Black-Box Attack on Deep Neural Networks
NATTACK 在输入周围的小区域内学习一个概率分布,以在黑盒环境中构造对抗样本,在多种防御措施下击败了许多防御并在多样化的深度神经网络上与白盒方法相当。
Powerful adversarial attack methods are vital for understanding how to construct robust deep neural networks (DNNs) and for thoroughly testing defense techniques. In this paper, we propose a black-box adversarial attack algorithm that can defeat both vanilla DNNs and those generated by various defense techniques developed recently. Instead of searching for an "optimal" adversarial example for a benign input to a targeted DNN, our algorithm finds a probability density distribution over a small region centered around the input, such that a sample drawn from this distribution is likely an adversarial example, without the need of accessing the DNN's internal layers or weights. Our approach is universal as it can successfully attack different neural networks by a single algorithm. It is also strong; according to the testing against 2 vanilla DNNs and 13 defended ones, it outperforms state-of-the-art black-box or white-box attack methods for most test cases. Additionally, our results reveal that adversarial training remains one of the best defense techniques, and the adversarial examples are not as transferable across defended DNNs as them across vanilla DNNs.
研究动机与目标
- 通过开发一种强大、通用的黑盒对抗攻击来推动对DNN的稳健性测试。
- 提出一种基于分布的优化框架,它对攻击目标进行平滑处理,并避免在非平滑网络上进行梯度估计。
- 证明对普通DNN和被防御DNN的有效性,并分析对抗样本的迁移性。
- 显示对抗训练仍然是一种强有力的防御,并且在被防御模型之间的迁移性有限。
提出的方法
- 将对抗攻击表述为在输入 x 周围的一个椭圆区域 S 上学习概率分布。
- 定义一个变换 g,将潜在样本映射到输入空间并投影到 S 以产生 x′。
- 通过 NES 启发式更新对分布参数 θ(均值 μ 和带宽 σ)进行对 J(θ)=E[f(projS(g(z)))] 的平滑目标优化。
- 使用一个回归网络来初始化 μ0 以加速收敛。
- 使用 C&W 风格的损失 f(x′)=max(0, log F(x′)y − maxc≠y log F(x′)c) 来推动错分类。
- 通过将 projS(g(z)) 吸收到 f 中来将投影整合到目标函数中,从而在梯度估计方法上提高稳定性。
- 在 2 个普通 DNN 与 13 个被防御 DNN 的评估中,与白盒及其他黑盒攻击(包括 ZOO、QL 和 BPDA)进行比较。
实验结果
研究问题
- RQ1在不访问内部模型权重的情况下,单一的通用、无梯度攻击是否能够同时击败普通和被防御的DNN?
- RQ2在局部输入区域上学习分布是否比直接的无梯度优化能产生更鲁棒的对抗样本?
- RQ3在多样化的防御和数据集上,NATTACK 相对于最先进的黑盒和白盒攻击的表现如何?
- RQ4通过黑盒方法攻击时,被防御模型之间对抗样本的迁移性如何?
主要发现
- NATTACK 在 2 个普通DNN 和 13 个被防御DNN 上实现了高攻击强度,在许多情况下超过了多种最前沿的黑盒方法,并在很多情形下媲美白盒方法。
- 在 13 种防御下,根据所报道的协议,NATTACK 在六种防御上取得 100% 的攻击成功率,在另外五种上达到 >90%。
- 与 QL 相比,NATTACK 表现更好,特别是在消融研究显示平滑目标、变量变换 g(·) 和 Z-score 稳定化带来提升时。
- 在对 ImageNet 进行攻击时,使用回归初始化将运行时间从大约 71s(无回归)降至大约 48s;在 CIFAR-10 上,BPDA 的攻击大约需要 30s,NATTACK 的时间也具有竞争力。
- 对抗训练仍然是最强的防御之一,被防御DNN之间对抗样本的迁移性弱于普通DNN之间,削弱了替代模型攻击的效用。
- NATTACK 提供了一个可扩展的框架,通过从学习的分布中采样来生成大量对抗样本,潜在地有助于稳健防御训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。