[论文解读] Defense against Universal Adversarial Perturbations
本文提出了一种新颖的防御框架,用于抵御通用对抗扰动,采用扰动校正网络(PRN)作为预输入模块以恢复受扰动的图像,并基于PRN输出的离散余弦变换(DCT)设计了独立的检测器。该方法在未见过的扰动上实现了高达97.5%的防御成功率,并且无需修改目标分类器即可在不同网络架构间良好泛化。
Recent advances in Deep Learning show the existence of image-agnostic quasi-imperceptible perturbations that when applied to `any' image can fool a state-of-the-art network classifier to change its prediction about the image label. These `Universal Adversarial Perturbations' pose a serious threat to the success of Deep Learning in practice. We present the first dedicated framework to effectively defend the networks against such perturbations. Our approach learns a Perturbation Rectifying Network (PRN) as `pre-input' layers to a targeted model, such that the targeted model needs no modification. The PRN is learned from real and synthetic image-agnostic perturbations, where an efficient method to compute the latter is also proposed. A perturbation detector is separately trained on the Discrete Cosine Transform of the input-output difference of the PRN. A query image is first passed through the PRN and verified by the detector. If a perturbation is detected, the output of the PRN is used for label prediction instead of the actual image. A rigorous evaluation shows that our framework can defend the network classifiers against unseen adversarial perturbations in the real-world scenarios with up to 97.5% success rate. The PRN also generalizes well in the sense that training for one targeted network defends another network with a comparable success rate.
研究动机与目标
- 应对通用对抗扰动带来的重大威胁,此类扰动可使用极小且难以察觉的噪声使深度神经网络在任何图像上失效。
- 开发一种无需微调或修改目标分类器的防御机制,从而可部署于已上线的模型。
- 实现在实际场景中对通用扰动的鲁棒检测与校正,即使在训练阶段未知扰动类型的情况下亦可实现。
- 通过利用通用扰动固有的跨模型泛化特性,确保防御机制在不同网络架构间的泛化能力。
- 提供一种实用且安全的防御方案,采用可插拔组件(PRN与检测器),且可保密以抵御对抗性反制措施。
提出的方法
- 训练一个作为预处理模块的扰动校正网络(PRN),以恢复受通用对抗扰动影响的图像,使用真实与合成生成的扰动数据。
- 提出一种高效方法生成用于PRN训练的合成图像无关扰动,扩展了Moosavi-Dezfooli [26] 的理论框架。
- 利用输入图像与PRN校正输出之间差异的离散余弦变换(DCT),训练独立的扰动检测器以检测对抗性扰动的存在。
- 仅当检测器确认存在扰动时,才使用PRN输出进行分类;否则,直接使用原始图像。
- 采用支持向量机(SVM)对校正差异的DCT特征进行分类,实现对受扰输入的高精度检测。
- 设计模块化且保密的框架,使PRN与检测器可保持秘密,防止对抗者适应。
实验结果
研究问题
- RQ1能否在不改变架构的前提下,有效防御预训练且未修改的深度神经网络免受通用对抗扰动?
- RQ2学习得到的扰动校正网络(PRN)在恢复由未见过的通用对抗扰动导致图像内容失真的效果如何?
- RQ3基于DCT的检测器能否可靠地区分基于PRN输出差异的干净图像与受扰图像?
- RQ4该防御机制在不同神经网络架构间的泛化程度如何,尤其是当目标模型与PRN训练所用模型不同时?
- RQ5在真实场景中,面对未见过的扰动类型与未见过的测试图像,该防御方案的性能如何?
主要发现
- 所提出的框架在未见过的图像上,针对此前未见过的通用扰动,实现了高达97.5%的防御成功率,表现出强大的鲁棒性。
- 在VGG-F上,PRN对ℓ₂型扰动的图像恢复准确率为93.2%;在CaffeNet上为90.3%;在GoogLeNet上为84.7%。
- 在CaffeNet与VGG-F上,DCT检测器对ℓ₂型扰动的检测率达98.6%,对ℓ∞型扰动的检测率达98.1%,表明其具有高度可靠性。
- 该框架在不同架构间具有良好的泛化能力:在一种网络上训练后,可对其他网络实现相当的防御性能,尤其在架构相似的模型上表现更优。
- 在GoogLeNet上,ℓ∞型扰动的防御性能较低(检测率92.5%),原因在于此类扰动的ℓ₂范数较低,表明模型架构对决策边界敏感性有影响。
- 该防御在ℓ₂与ℓ∞型扰动下均保持高性能,多数模型在相同测试/训练扰动类型下,防御率均超过90%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。