[论文解读] Practical Black-Box Attacks against Machine Learning
演示一个黑盒攻击,使用合成输入由远程 DNN 标注来训练替代模型,然后在替代模型上 Craft 对抗样本,这些样本可转移到目标模型,在不访问模型内部或训练数据的情况下实现高错分率。
Machine learning (ML) models, e.g., deep neural networks (DNNs), are vulnerable to adversarial examples: malicious inputs modified to yield erroneous model outputs, while appearing unmodified to human observers. Potential attacks include having malicious content like malware identified as legitimate or controlling vehicle behavior. Yet, all existing adversarial example attacks require knowledge of either the model internals or its training data. We introduce the first practical demonstration of an attacker controlling a remotely hosted DNN with no such knowledge. Indeed, the only capability of our black-box adversary is to observe labels given by the DNN to chosen inputs. Our attack strategy consists in training a local model to substitute for the target DNN, using inputs synthetically generated by an adversary and labeled by the target DNN. We use the local substitute to craft adversarial examples, and find that they are misclassified by the targeted DNN. To perform a real-world and properly-blinded evaluation, we attack a DNN hosted by MetaMind, an online deep learning API. We find that their DNN misclassifies 84.24% of the adversarial examples crafted with our substitute. We demonstrate the general applicability of our strategy to many ML techniques by conducting the same attack against models hosted by Amazon and Google, using logistic regression substitutes. They yield adversarial examples misclassified by Amazon and Google at rates of 96.19% and 88.94%. We also find that this black-box attack strategy is capable of evading defense strategies previously found to make adversarial example crafting harder.
研究动机与目标
- 在仅能访问输入输出标签的前提下,为 ML 分类器激励并形式化一个实用的黑盒威胁模型。
- 证明一个用目标标签的合成数据训练出的替代模型能够生成可转移的对抗样本。
- 在真实的远程 DNN 服务和本地 GTSRB 分类器上评估该攻击,以评估可转移性和防御规避。
提出的方法
- 通过向远程 oracle 询问合成输入并用 oracle 的输出对它们进行标注来训练一个替代 DNN(不访问训练数据)。
- 使用基于雅可比矩阵的数据集增强来高效探索输入空间并在塑造替代模型的决策边界的同时减少对 oracle 的查询。
- 通过既定方法在替代模型上构造对抗样本(Goodfellow 的快速梯度符号法和 Papernot 的显著性基方法)以诱导目标模型的错分。
- 由于决策边界相似,展示从替代模型到目标模型的对抗样本的可转移性。
- 在多个远程分类器(MetaMind MNIST、Amazon/GG)和一个本地 GTSRB 模型上进行验证,以展示广泛适用性。
实验结果
研究问题
- RQ1黑盒攻击者是否可以仅使用来自查询的标签输出诱导目标 DNN 的错分?
- RQ2由目标标注的合成数据训练的替代模型是否能够产生可转移的对抗样本以欺骗目标?
- RQ3在不同架构和远程 ML 服务(MetaMind、Amazon、Google)及数据集(MNIST、GTSRB)上攻击的有效性如何?
主要发现
- 在替代模型上构造的对抗样本会使目标错分:在 MetaMind MNIST 实验中转移率为 84.24%。
- 在某些条件下,对托管在 Amazon 和 Google 的模型的对抗样本分别错分率为 96.19% 和 88.94%。
- 针对 GTSRB 的攻击在扰动小到几乎不可察觉的情况下实现了 64.24% 到 69.03% 的转移率。
- 使用基于雅可比的增强进行替代训练在相对较少的 oracle 查询的情况下实现了对决策边界的有效近似。
- 该攻击能够规避旨在加强对抗样本构造的防御措施,表明防御机制对黑盒替代模型可能不足以应对。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。