[论文解读] NNoculation: Broad Spectrum and Targeted Treatment of Backdoored DNNs.
NNoculation 是一种两阶段防御机制,用于抵御后门攻击的深度神经网络。该方法在部署前通过广泛谱的输入扰动来降低后门影响,部署后则利用模型意见分歧检测并隔离后门输入。它训练一个CycleGAN,将干净输入转换为含触发器的图像,用于微调模型,从而在对抗性触发器变化下,其鲁棒性优于NeuralCleanse和ABS。
This paper proposes a novel two-stage defense (NNoculation) against backdoored neural networks (BadNets) that, unlike existing defenses, makes minimal assumptions on the shape, size and location of backdoor triggers and BadNet's functioning. In the pre-deployment stage, NNoculation retrains the network using broad-spectrum random perturbations of inputs drawn from a clean validation set to partially reduce the adversarial impact of a backdoor. In the post-deployment stage, NNoculation detects and quarantines backdoored test inputs by recording disagreements between the original and pre-deployment patched networks. A CycleGAN is then trained to learn transformations between clean validation inputs and quarantined inputs; i.e., it learns to add triggers to clean validation images. This transformed set of backdoored validation images along with their correct labels is used to further retrain the BadNet, yielding our final defense. NNoculation outperforms state-of-the-art defenses NeuralCleanse and Artificial Brain Simulation (ABS) that we show are ineffective when their restrictive assumptions are circumvented by the attacker.
研究动机与目标
- 解决现有防御方法在后门神经网络中对触发器形状、大小和位置施加严格假设的局限性。
- 开发一种对后门攻击具有鲁棒性的防御机制,即使在NeuralCleanse和Artificial Brain Simulation等先进方法的假设被违反时也能有效应对。
- 在不预先知晓触发器特征的情况下,实现对后门输入的可靠检测与缓解。
- 最小化对网络架构或触发器特性的假设,以增强在多种后门攻击场景下的泛化能力。
提出的方法
- 在部署前阶段,通过向干净验证输入施加随机扰动,对网络进行微调,以降低模型对潜在后门触发器的敏感性。
- 在部署后阶段,通过分析原始模型与已修补模型之间在测试输入上的意见分歧,识别可能被后门污染的样本。
- 训练一个CycleGAN,学习从干净验证图像到被隔离(疑似后门)图像的映射,从而有效将触发器注入到干净输入中。
- 将CycleGAN生成的、含触发器的图像(附带正确标签)用于微调原始后门模型,从而生成最终的鲁棒模型。
- 该防御方法利用模型意见分歧与生成建模技术,无需事先知晓触发器模式,即可识别并中和后门。
- 该方法对触发器特征保持无偏见,即使在触发器复杂、可变或由自适应攻击者设计时也依然有效。
实验结果
研究问题
- RQ1能否开发一种防御机制,在后门触发器的形状、大小和位置发生变化时仍保持有效,从而绕过先前防御方法所作的假设?
- RQ2广谱输入扰动在部署前微调阶段能在多大程度上降低后门的影响?
- RQ3在不预先知晓触发器特征的情况下,原始模型与微调后模型之间的意见分歧能否可靠检测出后门输入?
- RQ4CycleGAN能否通过学习被隔离的输入,有效从干净图像中合成触发器模式,从而实现有效的微调?
- RQ5当攻击者通过规避NeuralCleanse和ABS的严格假设时,NNoculation在鲁棒性方面与这两者相比表现如何?
主要发现
- 当攻击者违反NeuralCleanse和Artificial Brain Simulation方法的假设时,NNoculation在多个基准数据集上的表现优于这两种方法。
- 部署前的扰动阶段显著降低了模型对后门触发器的脆弱性,即使在未知触发器形式的情况下也有效。
- 原始模型与修补后模型之间的意见分歧能成功识别出大量后门输入,且误报率极低。
- 基于CycleGAN的触发器合成能有效生成语义上与干净输入一致的逼真、含触发器的图像。
- 在CycleGAN生成的、带标签的后门验证集上对后门模型进行微调后,最终模型在干净数据上保持高准确率,并对后门攻击表现出强鲁棒性。
- NNoculation在多种触发器类型下均保持优异性能,包括小型、不规则或嵌入细微模式的触发器,而此前的防御方法在这些情况下往往失效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。