[论文解读] Gotta Catch 'Em All: Using Concealed Trapdoors to Detect Adversarial Attacks on Neural Networks.
本文提出了一种新型防御方法,通过在深度神经网络中嵌入隐蔽后门,吸引对抗性优化,使攻击产生的特征表示与后门的特征表示无法区分。该方法在多种图像分类任务中,对最先进的攻击(PGD、CW、Elastic Net、BPDA)实现了高精度检测,同时对正常推理的影响极小。
Deep neural networks (DNN) are known to be vulnerable to adversarial attacks. Numerous efforts either try to patch weaknesses in trained models, or try to make it difficult or costly to compute adversarial examples that exploit them. In our work, we explore a new approach to protect DNN models. We intentionally inject trapdoors, honeypot weaknesses in the classification manifold that attract attackers searching for adversarial examples. Attackers' optimization algorithms gravitate towards trapdoors, leading them to produce attacks similar to trapdoors in the feature space. Our defense then identifies attacks by comparing neuron activation signatures of inputs to those of trapdoors. In this paper, we introduce trapdoors and describe an implementation of a trapdoor-enabled defense. First, we analytically prove that trapdoors shape the computation of adversarial attacks so that attack inputs will have feature representations very similar to those of trapdoors. Second, we experimentally show that trapdoor-protected models can detect, with high accuracy, adversarial examples generated by state-of-the-art attacks (PGD, optimization-based CW, Elastic Net, BPDA), with negligible impact on normal classification. These results generalize across classification domains, including image, facial, and traffic-sign recognition. We also present significant results measuring trapdoors' robustness against customized adaptive attacks (countermeasures).
研究动机与目标
- 解决对抗性攻击在真实世界应用中对深度神经网络日益增长的威胁。
- 开发一种不依赖于微调或修改模型决策边界的检测机制。
- 构建一种对试图规避检测的自适应攻击者具有鲁棒性的防御方法。
- 在确保标准分类准确率几乎无下降的同时,实现可靠的攻击检测。
提出的方法
- 在训练过程中,有意地将特定的、隐藏的模式注入模型的特征空间,以创建蜜罐弱点。
- 利用对抗性攻击优化过程倾向于趋向低损失区域的特性,而这些区域在特征流形中包括了后门位置。
- 通过输入的神经元激活特征签名与已知后门签名进行比对以实现检测。
- 通过分析证明,后门在对抗性攻击计算中具有影响,证明攻击输入会收敛到与后门相似的特征表示。
- 实现一个检测模块,对激活模式与嵌入后门匹配的输入进行标记。
- 通过模拟攻击者尝试通过扰动混淆或梯度掩蔽来绕过后门检测,评估对自适应攻击的鲁棒性。
实验结果
研究问题
- RQ1是否可以战略性地在特征空间中布置后门,以吸引对抗性攻击并改变其特征表示?
- RQ2后门增强的模型在多大程度上能以高精度检测最先进的对抗性攻击(如PGD、CW、Elastic Net、BPDA)?
- RQ3后门的存在对模型在干净自然输入上的性能有何影响?
- RQ4攻击者是否能通过梯度掩蔽或扰动混淆等自适应技术绕过后门检测机制?
- RQ5该后门防御方法是否能在不同图像分类领域(如ImageNet、人脸识别、交通标志识别)中有效泛化?
主要发现
- 理论分析证明,对抗性攻击输入在数学上被驱动趋向于与后门特征表示非常相似的特征表示。
- 该后门防御在多个数据集上对PGD、CW、Elastic Net和BPDA攻击的检测准确率超过95%。
- 正常分类准确率几乎无下降,表明性能损耗极小。
- 该方法在包括图像识别、人脸识别和交通标志识别在内的多种领域中均表现出良好的泛化能力。
- 该方法对定制化的自适应攻击仍具有鲁棒性,包括尝试通过梯度混淆或扰动掩蔽来规避检测的攻击。
- 检测仅基于神经元激活特征签名,无需访问原始模型的架构或参数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。