Skip to main content
QUICK REVIEW

[论文解读] Malware Classification using Deep Learning based Feature Extraction and Wrapper based Feature Selection Technique

Muhammad Furqan Rafique, Muhammad Ali|arXiv (Cornell University)|Oct 24, 2019
Advanced Malware Detection Techniques参考文献 29被引用 23
一句话总结

本文提出了一种基于深度学习的恶意软件分类框架,结合了通过两个深度卷积神经网络(CNNs)提取的字节级特征,以及通过基于包装器的SVM方法筛选出的汇编指令(opcode)特征。将混合特征空间输入多层感知机(MLP),在十轮运行中实现了0.09的对数损失,表明在分类九种恶意软件家族方面优于基线分类器,性能表现优异。

ABSTRACT

In the case of malware analysis, categorization of malicious files is an essential part after malware detection. Numerous static and dynamic techniques have been reported so far for categorizing malware. This research presents a deep learning-based malware detection (DLMD) technique based on static methods for classifying different malware families. The proposed DLMD technique uses both the byte and ASM files for feature engineering, thus classifying malware families. First, features are extracted from byte files using two different Deep Convolutional Neural Networks (CNN). After that, essential and discriminative opcode features are selected using a wrapper-based mechanism, where Support Vector Machine (SVM) is used as a classifier. The idea is to construct a hybrid feature space by combining the different feature spaces to overcome the shortcoming of particular feature space and thus, reduce the chances of missing a malware. Finally, the hybrid feature space is used to train a Multilayer Perceptron, which classifies all nine different malware families. Experimental results show that proposed DLMD technique achieves log-loss of 0.09 for ten independent runs. Moreover, the proposed DLMD technique's performance is compared against different classifiers and shows its effectiveness in categorizing malware. The relevant code and database can be found at https://github.com/cyberhunters/Malware-Detection-Using-Machine-Learning.

研究动机与目标

  • 通过结合多种特征表示方式,解决静态分析中准确分类恶意软件家族的挑战。
  • 通过整合基于深度学习的特征提取与基于包装器的特征选择技术,提升分类性能。
  • 通过构建来自字节级与汇编级特征的混合特征空间,降低误报率。
  • 评估所提方法在恶意软件家族分类中相对于传统分类器的有效性。
  • 提供一个公开可用代码与数据集的可复现框架,以支持恶意软件分类研究。

提出的方法

  • 对原始字节文件分别训练两个独立的深度卷积神经网络(CNNs),以提取具有区分性的低级与高级特征。
  • 从ASM(汇编)文件中提取指令序列,并处理生成用于恶意软件分析的特征向量。
  • 采用基于包装器的特征选择方法,以SVM作为评估指标,筛选出最具信息量和区分性的汇编指令特征。
  • 将筛选后的汇编指令特征与CNN提取的字节级特征结合,形成混合特征空间。
  • 在混合特征空间上训练一个多层感知机(MLP),以分类九种不同的恶意软件家族。
  • 通过十轮独立运行评估整个流程,以确保模型的鲁棒性与泛化能力。

实验结果

研究问题

  • RQ1将基于深度学习的字节级特征与经包装器优化的汇编指令特征相结合,是否能提升恶意软件家族分类的准确性?
  • RQ2与仅使用单一特征空间(仅字节或仅汇编指令)的方法相比,所提出的混合特征空间在分类性能上表现如何?
  • RQ3基于SVM的包装器特征选择方法对最终恶意软件分类器的分类性能有何影响?
  • RQ4与传统分类器相比,所提方法在恶意软件家族分类中是否实现了更低的对数损失?
  • RQ5该框架是否能在多轮运行中保持泛化能力,并在分类多样化恶意软件家族时维持一致的性能表现?

主要发现

  • 所提出的基于深度学习的恶意软件检测(DLMD)技术在十轮独立运行中实现了0.09的对数损失,表明模型具有高度稳定性和优异性能。
  • 将CNN提取的字节特征与包装器筛选的汇编指令特征结合形成的混合特征空间,显著提升了分类准确率,优于单一特征空间方法。
  • 基于包装器的特征选择方法有效识别出最具区分性的汇编指令特征,减少了噪声并提升了模型泛化能力。
  • 在混合特征空间上训练的多层感知机(MLP)在分类九种不同恶意软件家族方面优于基线分类器。
  • 该方法表现出强鲁棒性与一致性,多轮训练中性能波动极小。
  • 源代码与数据集已公开,支持可复现性,并可推动恶意软件分类领域的进一步研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。