QUICK REVIEW

[论文解读] Malware Detection by Eating a Whole EXE

Edward Raff, Jon Barker|arXiv (Cornell University)|Oct 25, 2017

Advanced Malware Detection Techniques参考文献 40被引用 60

一句话总结

该论文提出 MalConv，一种深度学习模型，通过将原始 PE 可执行文件作为字节序列处理，利用感受野为 500 步的 1D 卷积神经网络检测恶意软件，以捕捉长距离模式。该模型在大型二进制文件（最高达 2MB）上实现了高准确率，并能识别出可解释的、局部化的恶意行为区域，而无需依赖动态分析或人工特征工程。

ABSTRACT

In this work we introduce malware detection from raw byte sequences as a fruitful research area to the larger machine learning community. Building a neural network for such a problem presents a number of interesting challenges that have not occurred in tasks such as image processing or NLP. In particular, we note that detection from raw bytes presents a sequence problem with over two million time steps and a problem where batch normalization appear to hinder the learning process. We present our initial work in building a solution to tackle this problem, which has linear complexity dependence on the sequence length, and allows for interpretable sub-regions of the binary to be identified. In doing so we will discuss the many challenges in building a neural network to process data at this scale, and the methods we used to work around them.

研究动机与目标

开发一种机器学习模型，直接从原始二进制字节序列检测恶意软件，无需动态执行或人工特征工程。
解决使用深度神经网络处理典型 PE 文件中长达 200 万个时间步长序列的挑战。
识别二进制文件中对恶意分类有贡献的可解释、局部化区域，提升模型透明度。
克服现有方法（如基于签名的检测和动态分析）在零日或变种恶意软件面前无效的局限性。
探索能够实现在大二进制序列上训练，同时避免过拟合和内存瓶颈的架构选择。

提出的方法

模型将 PE 文件的原始字节序列作为输入，不进行任何预处理或解析，将每个字节视为序列中的一个标记。
一个可学习的 8 维嵌入层将每个字节（0–255）映射为密集向量表示，以捕捉语义和结构模式。
使用卷积核大小为 500、步长为 500、滤波器数量为 128 的 1D 卷积层，在序列上执行局部模式检测，实现高效的空域压缩。
采用门控卷积单元（gated convolutions）控制信息流动，提升长序列中的学习稳定性。
在序列上应用时间最大池化，以降低维度并提取最显著的特征用于分类。
最后通过一个 128 维全连接层和 Softmax 输出恶意软件分类的概率。

实验结果

研究问题

RQ1深度神经网络能否在不进行任何领域特定特征工程的情况下，有效学习从原始字节序列直接检测恶意软件？
RQ2哪些架构选择使得在长达 200 万个时间步长的序列上进行有效训练成为可能，这远超典型自然语言处理或信号处理任务的长度？
RQ3门控卷积和特定池化策略的使用是否能提升大二进制文件上的泛化能力并减少过拟合？
RQ4在准确率和可解释性方面，该模型的性能与简单基线模型和现有恶意软件检测方法相比如何？
RQ5该模型能否识别出二进制文件中具有预测性、可解释的局部区域，以指示恶意行为？

主要发现

MalConv 可成功处理长度高达 2MB 的原始 PE 文件，在未见过的恶意软件样本上实现了高检测准确率。
该模型优于简单基线模型和先前未能处理完整二进制文件的尝试，证明了其架构的有效性。
更宽的卷积核（感受野 500）和更少的网络层数优于更深、更窄的架构，这与其它领域的趋势相反。
批量归一化被发现会阻碍学习，因此未被纳入最终架构。
该模型能识别出二进制文件中对恶意分类有贡献的可解释、局部化区域，支持对可疑代码段的事后分析。
SGD 搭配 Nesterov 动量在训练收敛和泛化能力方面表现最佳，优于 Adam 和 RMSProp 等自适应优化器。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。