[论文解读] Generating Adversarial Malware Examples for Black-Box Attacks Based on GAN
MalGAN 使用生成器和替代检测器来制作对抗性恶意软件,能够欺骗黑箱恶意软件检测器,在多种分类器上实现几乎为零的真正阳性率,并揭示再训练防御的弱点。
Machine learning has been used to detect new malware in recent years, while malware authors have strong motivation to attack such algorithms. Malware authors usually have no access to the detailed structures and parameters of the machine learning models used by malware detection systems, and therefore they can only perform black-box attacks. This paper proposes a generative adversarial network (GAN) based algorithm named MalGAN to generate adversarial malware examples, which are able to bypass black-box machine learning based detection models. MalGAN uses a substitute detector to fit the black-box malware detection system. A generative network is trained to minimize the generated adversarial examples' malicious probabilities predicted by the substitute detector. The superiority of MalGAN over traditional gradient based adversarial example generation algorithms is that MalGAN is able to decrease the detection rate to nearly zero and make the retraining based defensive method against adversarial examples hard to work.
研究动机与目标
- 激发基于机器学习的恶意软件检测器面对对抗性攻击时的鲁棒性挑战。
- 提出一个基于GAN的框架(MalGAN),在无法访问检测器内部信息的情况下生成对抗性恶意软件。
- 通过学习替代模型并利用检测器的反馈,使恶意软件作者能够绕过黑箱检测器。
- 展示该方法在多种检测器类型上的有效性,并与基于梯度的白盒/灰盒方法进行比较。
- 探索再训练防御的影响及对抗性适应的动态。
提出的方法
- MalGAN 由生成器 G 和替代检测器 D 构成,都是神经网络,使用自 PE 程序的二进制 API 特征。
- 生成器以恶意软件特征向量 m 和噪声向量 z 为输入,产生 o;二值化步骤将 o 转换为 o',最终对抗样本 m' = m OR o'。
- 一个平滑函数 G 确保梯度通过未修改的位流动,使得尽管输出为二进制,仍能对生成器进行反向传播训练。
- 替代检测器 D 通过从对抗性恶意软件和良性样本的检测器反馈中学习,模仿黑箱检测器,而不使用来自黑箱的真实标签进行训练。
- 生成器损失 L_G 促使替代检测器对对抗样本产生错误分类,而替代检测器损失 L_D 与黑箱检测器的输出保持一致。
- 训练交替更新 D(最小化 L_D)和 G(最小化 L_G),使用来自恶意软件和良性数据集的小批量。
实验结果
研究问题
- RQ1在不知晓内部细节的前提下,MalGAN 是否能够生成可靠地绕过黑箱检测器的对抗性恶意软件?
- RQ2替代检测器在不同分类器架构下能多大程度地逼近黑箱检测器?
- RQ3对不同检测器模型(RF、LR、DT、SVM、MLP、VOTE)的对抗性恶意软件的可迁移性如何?
- RQ4对黑箱检测器进行再训练如何影响 MalGAN 的有效性?
- RQ5与基于梯度的白盒/灰盒方法在生成对抗性恶意软件方面,MalGAN 的表现如何?
主要发现
- 在相同数据上训练时,MalGAN 将多种黑箱检测器的真实阳性率从原本的高水平降低到对抗样本上的接近于零。
- 即使使用不同的数据进行训练,MalGAN 对大多数分类器在对抗样本上的 TPR 仍接近零,尽管仍存在一些差距(例如 LR/MLP/SVM 接近零,RF/DT 显示出小的非零 TPR)。
- MalGAN 的对抗样本在不同检测器架构之间具有较强的可迁移性,在黑箱假设下比基于梯度的二进制攻击更有效。
- 对黑箱检测器的防御性再训练可以在单次再训练周期内将对抗样本的检测率恢复到 100%(对抗样本全被发现),但如果对更新后的检测器再次对 MalGAN 进行再训练,检测器的有效性又会崩溃。
- 与基于梯度的方法相比,MalGAN 在黑箱设置下实现了更强的规避,避免了对抗样本分布变化带来的泛化问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。