[论文解读] Defend Deep Neural Networks Against Adversarial Examples via Fixed and Dynamic Quantized Activation Functions
本文提出动态量化激活(DQA),一种新型防御方法,通过在对抗训练过程中动态学习激活量化阈值,提升深度神经网络对对抗样本的鲁棒性。该方法同时增强了模型紧凑性与抗噪能力,在强白盒和黑盒攻击下于MNIST和CIFAR-10数据集上实现了最先进防御准确率。
Recent studies have shown that deep neural networks (DNNs) are vulnerable to adversarial attacks. To this end, many defense approaches that attempt to improve the robustness of DNNs have been proposed. In a separate and yet related area, recent works have explored to quantize neural network weights and activation functions into low bit-width to compress model size and reduce computational complexity. In this work, we find that these two different tracks, namely the pursuit of network compactness and robustness, can be merged into one and give rise to networks of both advantages. To the best of our knowledge, this is the first work that uses quantization of activation functions to defend against adversarial examples. We also propose to train robust neural networks by using adaptive quantization techniques for the activation functions. Our proposed Dynamic Quantized Activation (DQA) is verified through a wide range of experiments with the MNIST and CIFAR-10 datasets under different white-box attack methods, including FGSM, PGD, and C & W attacks. Furthermore, Zeroth Order Optimization and substitute model-based black-box attacks are also considered in this work. The experimental results clearly show that the robustness of DNNs could be greatly improved using the proposed DQA.
研究动机与目标
- 解决深度神经网络(DNNs)对对抗样本的脆弱性问题,即输入经微小扰动后可能导致错误分类。
- 探索通过激活量化实现的模型压缩与对抗鲁棒性之间的协同效应,这两者传统上被视为独立的研究方向。
- 开发一种防御机制,在不牺牲模型效率或准确率的前提下提升鲁棒性。
- 验证量化激活函数在多种攻击类型(包括白盒与黑盒攻击)下的有效性。
- 证明在对抗训练过程中采用动态可学习量化阈值,相比固定量化,能显著提升鲁棒性。
提出的方法
- 提出固定量化激活(FQA),通过使用固定阈值将激活输出量化为低比特宽度(如1、2或3比特),以减少对抗噪声的影响。
- 提出动态量化激活(DQA),其中量化阈值为可微分,并与网络权重在对抗训练过程中联合优化。
- 在训练流程中集成DQA,采用FGSM、PGD和C&W攻击进行对抗训练,以提升鲁棒性。
- 使用零阶优化(ZOO)和基于替代模型的黑盒攻击,评估在真实威胁模型下的鲁棒性。
- 以ResNet-18和VGG16/AlexNet作为主干网络模型,并在黑盒攻击评估中使用全精度替代模型。
- 训练采用量化激活的模型,并在多个数据集和攻击类型下评估干净样本与对抗样本的准确率。
实验结果
研究问题
- RQ1仅通过固定激活量化是否能有效提升DNN对对抗样本的鲁棒性?
- RQ2在对抗训练过程中动态学习量化阈值是否比固定量化带来更强的鲁棒性?
- RQ3激活量化能否作为白盒与黑盒攻击的有效防御机制?
- RQ4DQA在提升鲁棒性的同时,能在多大程度上保持模型准确率与紧凑性?
- RQ5DQA在面对ZOO和替代模型等高级黑盒攻击时效果如何?
主要发现
- 固定激活量化(如1、2或3比特)显著降低了对抗攻击的成功率,表明量化本身具有抑制对抗噪声的内在能力。
- 所提出的DQA防御在CIFAR-10数据集上,2比特量化下无攻击时测试准确率达到85.06%,优于基线模型。
- 在C&W与PGD白盒攻击下,即使采用1比特激活量化,DQA仍保持超过80%的准确率,展现出强大的鲁棒性。
- 在ZOO黑盒攻击下,DQA在所有比特宽度(1、2、3比特)下均实现0%攻击成功率,表明由于量化操作不可微,梯度近似方法失效。
- 在替代模型攻击中,使用VGG16作为替代模型时,DQA在3比特和2比特模型下分别保持82.59%和82.11%的准确率,显著优于替代模型在攻击下的准确率。
- 即使替代模型为全精度且性能强大,该防御依然有效,证实DQA的鲁棒性并非源于模型简单性,而是源于量化机制本身。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。