[论文解读] Exploring the Space of Black-box Attacks on Deep Neural Networks
本论文提出使用模型查询输出来构造对抗样本的梯度估计黑盒攻击,在 MNIST 与 CIFAR-10 上实现近似白盒性能,并且超越基于转移的黑盒方法,同时具备有效的查询减少策略。
Existing black-box attacks on deep neural networks (DNNs) so far have largely focused on transferability, where an adversarial instance generated for a locally trained model can "transfer" to attack other learning models. In this paper, we propose novel Gradient Estimation black-box attacks for adversaries with query access to the target model's class probabilities, which do not rely on transferability. We also propose strategies to decouple the number of queries required to generate each adversarial sample from the dimensionality of the input. An iterative variant of our attack achieves close to 100% adversarial success rates for both targeted and untargeted attacks on DNNs. We carry out extensive experiments for a thorough comparative evaluation of black-box attacks and show that the proposed Gradient Estimation attacks outperform all transferability based black-box attacks we tested on both MNIST and CIFAR-10 datasets, achieving adversarial success rates similar to well known, state-of-the-art white-box attacks. We also apply the Gradient Estimation attacks successfully against a real-world Content Moderation classifier hosted by Clarifai. Furthermore, we evaluate black-box attacks against state-of-the-art defenses. We show that the Gradient Estimation attacks are very effective even against these defenses.
研究动机与目标
- 在不依赖转移性的前提下,动员并量化对具有查询模型输出的黑盒对手威胁的程度,而不依赖转移性。
- 开发基于梯度估计的攻击,通过有限差分近似梯度。
- 在保持高成功率的同时,减少构造对抗样本所需的查询次数。
- 在最先进模型、防御和真实世界 API(Clarifai)上评估攻击。
- 提供与零查询基线和基于转移的黑盒攻击的全面比较。
提出的方法
- 提出利用有限差分并获得目标模型输出概率的梯度估计攻击。
- 使用两种查询减缩技术:随机特征分组和基于 PCA 的查询缩减以降低维度。
- 用交叉熵损失和基于对数几率(logit)的损失来引导扰动的实验。
- 开发单步和迭代变体(IFD-xent、IFD-logit、IFD-xent-T、IFD-logit-T),以实现高成功率。
- 在 MNIST 和 CIFAR-10 上与零查询基线、基于转移的攻击以及白盒基线进行比较。
- 展示对真实世界 API(Clarifai NSFW/Content Moderation)和防御的适用性。
实验结果
研究问题
- RQ1黑盒对手在不训练本地代理模型的情况下能否实现高攻击成功率?
- RQ2如何有效地从查询输出中估计梯度以生成对抗样本?
- RQ3查询缩减策略是否使图像的高维梯度估计变得可行?
- RQ4梯度估计攻击是否对现代防御和真实世界的 MLaaS 服务具有鲁棒性?
主要发现
- 在单步和迭代设置中,梯度估计攻击在 MNIST 和 CIFAR-10 上达到与白盒攻击相同的性能。
- 迭代梯度估计攻击(IFD-*)在所有模型和数据集上实现了 100% 的对抗成功率。
- 单步梯度估计结合 logit 损失(FD-logit)常常达到带对数损失的白盒 FGSM 的水平,但需要更少的查询次数(单步大约 200–800 次每张图像;迭代大约 8,000 次)。
- 查询缩减方法(随机分组、基于 PCA 的)在成功率损失很小的情况下显著减少查询次数。
- 对标准、集成和对抗性训练等防御,以及现实世界 Clarifai NSFW/Content Moderation 模型仍然具有高效攻击性(示例每张图像约 200 次查询)。
- 与基于转移的黑盒攻击相比,梯度估计方法在攻击成功率方面显著优于转移,且畸变相当。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。