QUICK REVIEW

[论文解读] Adversarial Deep Learning for Robust Detection of Binary Encoded Malware

Abdullah Al-Dujaili, Alex Huang|arXiv (Cornell University)|Jan 9, 2018

Adversarial Robustness in Machine Learning被引用 38

一句话总结

该论文提出了一种名为 Sleipnir 的鲁棒对抗训练框架，通过将连续空间的鞍点优化方法适配到离散二进制域，用于检测二进制编码的恶意软件。该框架引入了四种方法以生成功能保持不变的对抗性恶意软件样本，并表明与基线模型相比，随机化内部最大化方法可实现最高达 3.0× 的盲区覆盖提升和 2.4% 的更低误检率，同时在线度量 ($\bar{\mathcal{N}}_{BS}$) 与模型鲁棒性具有强相关性。

ABSTRACT

Malware is constantly adapting in order to avoid detection. Model based malware detectors, such as SVM and neural networks, are vulnerable to so-called adversarial examples which are modest changes to detectable malware that allows the resulting malware to evade detection. Continuous-valued methods that are robust to adversarial examples of images have been developed using saddle-point optimization formulations. We are inspired by them to develop similar methods for the discrete, e.g. binary, domain which characterizes the features of malware. A specific extra challenge of malware is that the adversarial examples must be generated in a way that preserves their malicious functionality. We introduce methods capable of generating functionally preserved adversarial malware examples in the binary domain. Using the saddle-point formulation, we incorporate the adversarial examples into the training of models that are robust to them. We evaluate the effectiveness of the methods and others in the literature on a set of Portable Execution~(PE) files. Comparison prompts our introduction of an online measure computed during training to assess general expectation of robustness.

研究动机与目标

解决恶意软件检测器对能够规避检测但保持恶意功能的对抗性样本的脆弱性。
将连续域中的鲁棒对抗训练方法——特别是鞍点优化——适配到典型恶意软件的离散二进制特征空间。
开发一种生成功能保持不变的对抗性样本并提升模型抗规避能力的训练框架。
引入一种在线训练度量 ($\bar{\mathcal{N}}_{BS}$) 以在训练过程中评估模型鲁棒性的总体期望。
在可移植可执行文件（PE）文件上评估该框架，并与现有对抗性构造方法进行鲁棒性比较。

提出的方法

Sleipnir 框架采用鞍点优化公式在二进制编码的恶意软件特征上训练深度神经网络（DNN），将鲁棒性视为一个极小化-极大化博弈。
提出了四种内部最大化方法——dFGSM$^k$、rFGSM$^k$、BGA$^k$ 和 BCA$^k$——以在二进制域中生成功能保持不变的对抗性恶意软件样本。
在投影梯度下降的舍入步骤中应用随机化，以增强对抗空间的探索能力，提升盲区覆盖范围。
通过对抗训练将对抗性样本整合到训练过程中，最小化扰动下的最坏情况损失。
利用布隆过滤器计算一种在线度量 $\bar{\mathcal{N}}_{BS}$，以近似训练期间生成的不同对抗样本数量，从而评估鲁棒性。
在包含 7,600 个 PE 文件（3,800 个良性，3,800 个恶意）的数据集上进行评估，每个样本生成 $k=50$ 个扰动。

实验结果

研究问题

RQ1能否将来自连续域的鞍点优化公式有效适配到恶意软件特征的离散二进制域？
RQ2能否在二进制域中生成对抗性样本，使其保持原始恶意软件的恶意功能？
RQ3在对抗训练中引入随机化内部最大化是否能显著提升模型对规避攻击的鲁棒性？
RQ4在线训练度量 $\bar{\mathcal{N}}_{BS}$ 是否能可靠地反映训练过程中模型鲁棒性的总体期望？
RQ5与现有对抗性构造方法（如 [13] 的方法）相比，该框架在真实世界 PE 文件上的鲁棒性如何？

主要发现

与自然基线相比，随机化方法 rFGSM$^k$ 实现了最高的盲区覆盖（$\mathbf{+3.0}$）和最低的误检率（$\mathbf{-2.4}$）。
rFGSM$^k$ 方法将误报率降低了 3.6%，并保持了高准确率，优于其他对抗训练方法。
使用 rFGSM$^k$ 训练的模型对自身预期对手的规避率仅为 5.7%，表明其具有很强的鲁棒性。
在线度量 $\bar{\mathcal{N}}_{BS}$ 与规避率和盲区覆盖范围具有强相关性，验证了其作为实时鲁棒性指标的有效性。
使用随机化方法训练的模型对 [13] 的对抗性构造方法具有鲁棒性，规避率为 15.6%，显著低于自然模型的 99.7%。
该框架表明，投影梯度下降中舍入步骤的随机化，使在二进制特征空间中发现的恶意样本数量约为自然训练的四倍。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。