QUICK REVIEW

[论文解读] A multi-task learning model for malware classification with useful file access pattern from API call sequence

Xin Wang, Siu Ming Yiu|arXiv (Cornell University)|Oct 19, 2016

Advanced Malware Detection Techniques参考文献 12被引用 28

一句话总结

本文提出一种多任务深度学习模型，通过共享的基于RNN的自编码器，从原始API调用序列中联合执行恶意软件分类和文件访问模式（FAP）生成。该模型利用无监督表征学习，并配备两个解码器——一个用于分类，一个用于生成可解释的FAP——在实现高分类准确率（最高达99.9%）的同时，生成高质量的FAP，从而在无需人工特征工程的情况下提升模型可解释性。

ABSTRACT

Based on API call sequences, semantic-aware and machine learning (ML) based malware classifiers can be built for malware detection or classification. Previous works concentrate on crafting and extracting various features from malware binaries, disassembled binaries or API calls via static or dynamic analysis and resorting to ML to build classifiers. However, they tend to involve too much feature engineering and fail to provide interpretability. We solve these two problems with the recent advances in deep learning: 1) RNN-based autoencoders (RNN-AEs) can automatically learn low-dimensional representation of a malware from its raw API call sequence. 2) Multiple decoders can be trained under different supervisions to give more information, other than the class or family label of a malware. Inspired by the works of document classification and automatic sentence summarization, each API call sequence can be regarded as a sentence. In this paper, we make the first attempt to build a multi-task malware learning model based on API call sequences. The model consists of two decoders, one for malware classification and one for $\emph{file access pattern}$ (FAP) generation given the API call sequence of a malware. We base our model on the general seq2seq framework. Experiments show that our model can give competitive classification results as well as insightful FAP information.

研究动机与目标

解决传统恶意软件分类器缺乏可解释性的问题，这些分类器仅输出家族标签而无法解释恶意行为。
通过实现从原始API调用序列中端到端、自动化的表征学习，克服现有恶意软件检测系统中人工特征工程的局限性。
通过联合训练基于共享潜在表征的恶意软件分类器和文件访问模式（FAP）生成器，提升模型的鲁棒性和泛化能力。
通过生成超越预定义家族标签的行为描述性FAP，实现对零日恶意软件的检测，并区分相似的恶意软件家族。

提出的方法

采用基于循环神经网络的自编码器（RNN-AE）学习原始API调用序列的低维无监督表征。
设计一个包含两个解码器的多任务序列到序列框架：一个用于恶意软件家族分类，另一个用于生成文件访问行为（FAP）的自然语言描述。
使用分类和FAP生成的监督信号，通过RNN-AE共享的编码表示，实现端到端训练。
通过启发式规则方法自动从API调用序列中提取文件访问模式，以生成训练标签，构建FAP监督信号。
采用序列到序列建模生成FAP作为文本序列，将每个API调用序列视为类似自然语言中的“句子”。
在真实世界恶意软件数据集上，通过细粒度分类和FAP生成性能评估模型，比较多种架构变体。

实验结果

研究问题

RQ1从原始API调用序列中学习到的共享表征是否能有效支持恶意软件分类和可解释的文件访问模式（FAP）生成？
RQ2与单任务模型相比，联合训练分类和FAP生成如何提升模型的可解释性？
RQ3通过RNN-AE进行无监督表征学习在多大程度上可减少恶意软件分类中对人工特征工程的依赖？
RQ4模型生成的FAP是否有助于区分具有相似API调用序列的恶意软件家族，特别是在打包或混淆的情况下？
RQ5当依赖FAP而非预定义标签时，该模型在零日或此前未见过的恶意软件家族上的表现如何？

主要发现

所提出的多任务模型在测试中实现了99.2%的分类准确率和99.3%的FAP生成准确率，表明其在两项任务上均表现出色。
模型的无监督RNN-AE编码器学习到稳健的低维表征，即使在API调用序列高度相似的情况下，也能在不同恶意软件家族间良好泛化。
细粒度评估表明，FAP能有效缩小恶意软件的真实家族范围，例如以高精度识别 net-worm.win32.allaple 和 adware.win32.megasearch。
模型成功生成有意义且可解释的FAP，能够描述文件系统行为，如创建或修改特定文件，提供超越家族标签的可操作洞察。
在分类和FAP生成任务上，该模型均优于单任务基线模型，证实了多任务学习在恶意软件分析中的优势。
潜在表征的可视化结果表明，同一家族的恶意软件样本聚类在一起，而不同家族则明显分离，验证了所学嵌入表征的质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。