[论文解读] Defense Methods Against Adversarial Examples for Recurrent Neural Networks
论文引入序列挤压和另外四种基于RNN的防御来减轻对抗序列,在基于API调用的恶意软件分类器中进行评估,攻击成功率显著降低。
Adversarial examples are known to mislead deep learning models to incorrectly classify them, even in domains where such models achieve state-of-the-art performance. Until recently, research on both attack and defense methods focused on image recognition, primarily using convolutional neural networks (CNNs). In recent years, adversarial example generation methods for recurrent neural networks (RNNs) have been published, demonstrating that RNN classifiers are also vulnerable to such attacks. In this paper, we present a novel defense method, termed sequence squeezing, to make RNN classifiers more robust against such attacks. Our method differs from previous defense methods which were designed only for non-sequence based models. We also implement four additional RNN defense methods inspired by recently published CNN defense methods. We evaluate our methods against state-of-the-art attacks in the cyber security domain where real adversaries (malware developers) exist, but our methods can be applied against other discrete sequence based adversarial attacks, e.g., in the NLP domain. Using our methods we were able to decrease the effectiveness of such attack from 99.9% to 15%.
研究动机与目标
- 在网络安全与离散序列领域中,推动需要对RNN中的对抗样本防御的必要性。
- 提出序列挤压以在不重新训练分类器的情况下减少对抗空间。
- 引入四种受CNN启发并改编于RNN的防御:sequence-GAN、最近邻、RNN集成,以及对抗性特征签名。
- 将防御方法与最先进攻击以及将对抗训练作为基线进行比较。
提出的方法
- 通过使用 GloVe 嵌入对 API 调用/词语进行嵌入、聚类为更小的挤压词汇表,并将成员替换为最近的质心来实现序列挤压,以在保持分类器输入语义的同时减少对抗空间。
- 实现防御 sequence-GAN,使用按类别训练的 sequence GAN 生成正常序列和恶意序列,并选取与输入最接近的序列进行分类。
- 应用最近邻防御,基于与输入序列最接近的训练样本进行分类以抵抗扰动。
- 构建包含常规、装袋(bagging)、对抗、以及子序列模型的 RNN 集成,通过集成投票和多样化输入分区来检测扰动。
- 引入对抗性签名,以检测攻击特定扰动模式,并将对抗训练作为比较基线。
- 评估针对特定攻击和对抗攻击无关的方案,讨论自适应攻击以及在网络安全情境中的实用性。
实验结果
研究问题
- RQ1序列挤压是否能够在不重新训练模型的情况下,降低离散序列上RNN分类器的对抗空间?
- RQ2sequence-GAN、最近邻、RNN 集成以及其他改编方法是否能提高基于 API 调用的 RNN 恶意软件分类器对对抗序列的鲁棒性?
- RQ3在有效性和可操作性方面,这些防御与对抗训练在网络安全场景中的比较如何?
- RQ4防御方法在白盒和黑盒攻击设置下(包括自适应攻击)是否有效?
主要发现
- 序列挤压在评估的攻击中将对抗有效性从 99.9% 降低到 15%。
- 方法综合降低了对抗序列的成功率且无需重新训练分类器。
- Sequence-GAN 和最近邻方法提供稳健、对攻击无关的防御,适用于离散序列输入。
- RNN 集成与基于子序列的模型通过在模型和输入片段之间分散风险来提高鲁棒性。
- 本文认为防御方法在存在对手且并非总能实现完美检测的网络安全环境中可能具有实用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。