[论文解读] Securing Deep Neural Nets against Adversarial Attacks with Moving Target Defense.
本文提出 MTDeep,一种元防御框架,通过使用贝叶斯斯塔克尔伯格博弈动态选择模型集成中的模型,提升深度神经网络对对抗攻击的鲁棒性。该方法在 MNIST、FashionMNIST 和 ImageNet 上均降低了对抗扰动图像的误分类率,同时保持了干净数据上的准确率,并通过新颖的差分免疫概念实现了与现有防御机制的协同作用。
Present attack methods can make state-of-the-art classification systems based on deep neural networks misclassify every adversarially modified test example. The design of general defense strategies against a wide range of such attacks still remains a challenging problem. In this paper, we draw inspiration from the fields of cybersecurity and multi-agent systems and propose to leverage the concept of Moving Target Defense (MTD) in designing a meta-defense for 'boosting' the robustness of an ensemble of deep neural networks (DNNs) for visual classification tasks against such adversarial attacks. To classify an input image, a trained network is picked randomly from this set of networks by formulating the interaction between a Defender (who hosts the classification networks) and their (Legitimate and Malicious) users as a Bayesian Stackelberg Game (BSG). We empirically show that this approach, MTDeep, reduces misclassification on perturbed images in various datasets such as MNIST, FashionMNIST, and ImageNet while maintaining high classification accuracy on legitimate test images. We then demonstrate that our framework, being the first meta-defense technique, can be used in conjunction with any existing defense mechanism to provide more resilience against adversarial attacks that can be afforded by these defense mechanisms. Lastly, to quantify the increase in robustness of an ensemble-based classification system when we use MTDeep, we analyze the properties of a set of DNNs and introduce the concept of differential immunity that formalizes the notion of attack transferability.
研究动机与目标
- 为应对现有最先进的深度神经网络在面对广泛对抗攻击时持续存在的防御挑战。
- 设计一种可泛化的元防御策略,以提升鲁棒性,且无需对底层模型进行微调。
- 通过差分免疫的概念,形式化并量化集成系统中的鲁棒性增益。
- 通过作为插件层运行,实现与现有防御机制的兼容,以提升对抗鲁棒性。
提出的方法
- 将模型选择建模为防御者与用户(合法或恶意)之间的贝叶斯斯塔克尔伯格博弈,其中防御者为每个输入随机从模型集成中选择一个 DNN 进行分类。
- 防御者的策略是基于在不确定攻击者行为下的预期效用最大化,从一组预训练的 DNN 中选择一个网络。
- 该框架利用 DNN 集成的内在多样性,提高目标模型的不可预测性,从而阻碍对抗样本的迁移性。
- 该防御作为运行时机制实现,不改变基础 DNN 的内部架构或权重,因此可与任何现有防御兼容。
- 引入差分免疫作为正式度量,以量化 DNN 集成在对抗扰动下的相对鲁棒性。
- 通过确保所选模型即使在动态选择下仍具有良好的性能,系统在干净输入上保持高准确率。
实验结果
研究问题
- RQ1基于博弈论原则的动态模型选择策略是否能提升深度神经网络对对抗攻击的鲁棒性?
- RQ2所提出的 MTDeep 框架在 MNIST、FashionMNIST 和 ImageNet 等多样化数据集上,对对抗扰动图像的误分类率降低效果如何?
- RQ3MTDeep 与现有防御机制结合后,能在多大程度上进一步增强系统鲁棒性?
- RQ4差分免疫概念是否能有效量化并形式化集成中不同模型之间对抗攻击的迁移性?
主要发现
- MTDeep 在 MNIST、FashionMNIST 和 ImageNet 上显著降低了对抗扰动图像的误分类率,同时保持了干净测试图像的高准确率。
- 该框架与现有防御机制具有兼容性,作为元防御层使用时可实现累加的鲁棒性增益。
- 差分免疫的引入提供了一种正式且可度量的方式,用于评估 DNN 集成对可迁移对抗攻击的鲁棒性。
- 实证结果证实,通过贝叶斯斯塔克尔伯格博弈形式化实现的动态模型选择,显著增加了对攻击者的不可预测性,降低了基于迁移的攻击成功率。
- 该防御在干净数据上保持了强劲性能,表明鲁棒性与标准准确率之间不存在权衡。
- 该方法具有通用性,无需对底层 DNN 进行微调或架构修改,因此可直接部署于真实世界系统中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。